世界領先開放原始碼軟體解決方案供應商 Red Hat 於 Red Hat Summit 2025 正式宣布推出全新開源專案 llm-d,旨在回應未來生成式 AI(Gen AI)最關鍵的大規模推論需求。llm-d 運用突破性的生成式 AI 大規模推論技術,並採用原生 Kubernetes 架構、基於 vLLM 的分散式推論,以及智慧型 AI 感知網路路由,打造出強大的大型語言模型(LLM)推論雲端,以滿足最嚴苛的生產服務水準目標(service-level objectives,SLO)。
儘管模型訓練仍至關重要,但生成式 AI 的真正價值更仰賴有效率且可擴展的推論能力,這才是將 AI 模型轉化為可執行的洞察和使用者體驗的引擎。根據 Gartner[1] 預測指出,隨著市場趨於成熟,2028 年超過 80% 的資料中心工作負載加速器將專門用於推論,而非訓練用途,此趨勢凸顯出生成式 AI 的未來取決於執行能力。然而,隨著推理模型日益複雜且龐大,對資源的需求不斷攀升,種種因素不僅限制了集中式推論的可行性,其衍生的高成本和嚴重的延遲更可能成為 AI 創新的瓶頸。
Red Hat 資深副總裁暨 AI 技術長 Brian Stevens 表示:「由眾多 AI 領導者支持的 llm-d 社群的啟動,象徵著我們正處於滿足可擴展生成式 AI 推論需求的關鍵時刻,亦為企業實現更廣泛的 AI 應用時必須克服的重大挑戰。透過運用 vLLM 的創新技術和 Kubernetes 經驗證的能力,llm-d 協助企業更順暢地在擴展的跨混合雲環境中實現分散式、可擴展且高效能的 AI 推論,能夠支援任何模型、任何加速器,在任何雲端環境中運行,協助實現 AI 無限潛力的願景。」

借助llm-d滿足對可擴展生成式AI推論的需求
為應對上述挑戰,Red Hat 攜手業界夥伴共同推出 llm-d。這項具前瞻性的專案不僅能強化 vLLM 的能力以突破單一伺服器的限制,同時也為 AI 推論釋放大規模生產的潛力。llm-d 運用 Kubernetes 經驗證且強大的調度能力,將進階推論功能無縫整合至企業既有的 IT 基礎架構中。IT 團隊得以於統一平台上滿足關鍵業務工作負載的多樣化服務需求,同時透過部署創新技術將效率極大化,並大幅降低高效能 AI 加速器帶來的總體擁有成本(TCO)。
llm-d 提供一系列強大的創新功能,亮點包括:
- ● vLLM 迅速成為開源領域實質上的標準推論伺服器:為新興模型提供 Day 0 模型支援,可用於多種加速器,包括 Google Cloud Tensor Processor Units(TPU)。
- ● 預填與解碼分離:將 AI 的輸入內容和權杖生成階段分離為獨立的運算作業,並將這些作業分散到多個伺服器上執行。
- ● 基於 LMCache 的鍵值(key-value,KV)快取卸載:將 KV 快取的記憶體負載從 GPU 記憶體中移轉到成本效益更高且資源更豐富的標準儲存裝置,例如 CPU 記憶體或網路儲存。
- ● 由 Kubernetes 驅動的叢集和控制器:可在工作負載需求波動時,更有效地調度運算與儲存資源,同時維持效能並降低延遲。
- ● AI 感知網路路由:將傳入請求排程至最有可能擁有先前推論運算熱快取的伺服器和加速器。
- ● 高效能通訊應用程式介面:可在伺服器之間實現更為快速高效的資料傳輸,並支援 NVIDIA Inference Xfer Library(NIXL)。
llm-d獲業界領導者支持
這項全新開源專案已獲得由頂尖生成式 AI 模型供應商、AI 加速器領航者以及一流 AI 雲端平台組成的強大聯盟鼎力支持。CoreWeave、Google Cloud、IBM Research 和 NVIDIA 為創始貢獻者,AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 則為合作夥伴,此陣容凸顯出業界為打造大規模 LLM 服務的未來所展現的深度協作。llm-d 社群亦獲得重要學術界創始支持者的響應,包括加州大學的 Sky Computing Lab(vLLM 的創始單位),以及芝加哥大學的 LMCache Lab(LMCache 的創始單位)。
Red Hat 秉持對開放協作的承諾,深知在生成式 AI 推論快速演進下,充滿活力且易於參與的社群為核心關鍵。Red Hat 將積極耕耘 llm-d 社群以推動其成長,為新成員營造包容的環境,並促進其持續發展。
AI 的未來應由無限機會所定義,而非受限於基礎架構孤島。Red Hat 對未來的展望是,企業能於任何雲端、任何加速器上部署任何模型,並在合理成本的前提下提供卓越且更一致的使用者體驗。為充分釋放生成式 AI 投資的真正潛力,企業需要通用的推論平台,這將成為現今及未來實現更無縫、高效能 AI 創新的標準。
正如 Red Hat 曾將 Linux 轉型為現代 IT 的基石,開創了開源企業的先河,如今 Red Hat 也將擘劃 AI 推論的未來。vLLM 擁有成為標準化生成式 AI 推論關鍵核心的潛力,Red Hat 不僅持續致力壯大 vLLM 社群,也同時推動大規模分散式推論的 llm-d,共同打造蓬勃發展的生態系。Red Hat 的願景非常明確,亦即無論 AI 模型、基層加速器或部署環境為何,vLLM 皆能成為新型態跨混合雲推論的開源標準權威。
AMD AI 產品管理事業部副總裁 Ramine Roane 表示:「AMD 很自豪能成為 llm-d 社群的創始成員,貢獻我們在高效能 GPU 領域的專業,推動 AI 推論技術的進步並滿足不斷演進的企業 AI 需求。隨著企業追求更大規模和更高效率的生成式 AI,AMD 期待透過 llm-d 專案來滿足業界日益複雜的需求。」
思科開源計畫辦公室副總裁暨 Cisco DevNet 負責人 Shannon McFarland 表示:「llm-d 專案是實用型生成式 AI 向前邁出令人振奮的一步。開發人員能運用 llm-d 以程式化的方式整合和擴展生成式 AI 推論,在現代 AI 領域中釋放更高層次的創新和效率。思科很自豪能成為 llm-d 社群的一員,我們正攜手探索實際應用情境,協助企業以更有效且更具效率的方式應用 AI。」
CoreWeave 工程資深副總裁 Chen Goldberg 表示:「CoreWeave 很高興能成為 llm-d 專案的創始貢獻者,並深化我們對開源 AI 的長期承諾。從早期與 EleutherAI 合作,我們至今仍持續推動大規模推論的工作,我們一直致力於讓取得強大的 AI 基礎架構變得更加輕鬆。我們很高興能與眾多優秀的夥伴及更廣泛的開發社群合作,攜手打造彈性、高效能的推論引擎,為開放且可互通的 AI 奠定基礎,加速創新。」
Google Cloud AI 與運算基礎架構副總裁暨總經理 Mark Lohmeyer 表示:「隨著企業開始大規模部署 AI 並為其使用者創造價值,高效率的 AI 推論變得極為重要。隨著我們步入推論的新時代,Google Cloud 很榮幸能作為 llm-d 專案的創始貢獻者,在我們既有的開源貢獻基礎上延伸投入。這個新社群將成為大規模分散式 AI 推論的關鍵催化劑,協助使用者提高工作負載效率,並為其基礎架構資源提供更多選擇。」
Hugging Face 產品負責人 Jeff Boudier 表示:「我們相信每家公司都應該能夠建立和運行自家的模型。藉由 vLLM 利用 Hugging Face transformers 函式庫作為模型定義的單一事實來源,不同大小規模的模型都能支援文字、音訊、圖片和影像 AI 應用程式。800 萬名 AI 建置者透過 Hugging Face 平台,在全球社群公開分享的逾 200 萬個 AI 模型和資料集上協作。我們很高興能支援 llm-d 專案,讓開發人員能將這些應用程式擴展到更大規模。」
IBM Research 混合雲與 AI 平台副總裁 Priya Nagpurkar 表示:「IBM 認為 AI 的下一階段重點在於效率和規模。我們專注於透過企業能有效部署的 AI 解決方案,為企業釋放價值。作為 llm-d 的創始貢獻者,IBM 很自豪能成為建置差異化、硬體中立(hardware agnostic)的分散式 AI 推論平台的關鍵一員。我們期待持續為這個社群的成長和成功做出貢獻,以改變 AI 推論的未來。」
Intel 資料中心與 AI 軟體解決方案暨生態系副總裁 Bill Pearson 表示:「llm-d 的推出將成為業界推動大規模 AI 轉型的關鍵轉捩點,Intel 很榮幸能以創始支持者身分參與其中。Intel 參與 llm-d 是我們與 Red Hat 長達數十年合作的最新里程碑,旨在透過開源解決方案賦能企業得以在任何地點、任何所選平台上進行部署。我們期待透過 llm-d 社群進一步擴展和建構 AI 創新。」
NVIDIA 工程 AI 框架副總裁 Ujval Kapasi 表示:「llm-d 專案是開源 AI 生態系中的重要一環,同時展現 NVIDIA 支持以協作推動生成式 AI 創新的立場。可擴展且高效能的推論是下一波生成式和代理 AI 的關鍵。我們正與 Red Hat 及其他支持此專案的夥伴合作,促進 llm-d 社群的參與和採用,並透過像是 NIXL 這樣的 NVIDIA Dynamo 創新技術,協助加快 llm-d 的發展。」