Red Hat AI 全新「硬體底層至智慧代理」功能為跨混合雲環境中擴展模型與自主式代理奠定基礎

世界領先開放原始碼軟體解決方案供應商 Red Hat 今(13)日宣布 Red Hat AI 產品組合的重大進展,旨在弭平 AI 實驗階段與生產級營運控制之間的落差。透過提供統一的硬體底層至智慧代理(metal-to-agent)平台,Red Hat AI 3.4 簡化代理工作流程的開發與部署,賦能企業從試驗階段邁向在整個基礎架構中實現可擴展的 AI。
藉由提供建置人員與營運人員一致的框架,Red Hat 協助企業在擴展自主式系統基礎架構的同時,仍保有現代企業所需的控制力、安全功能與硬體效率。
Red Hat AI 事業部副總裁暨總經理 Joe Fernandes 指出:「AI 代理時代象徵著平台的進化,從運行傳統應用程式演進為驅動自主式智慧系統。我們正在定義企業執行 AI 的開放標準。Red Hat 透過為 AI 推論、MaaS 與 AgentOps 提供穩固的硬體底層至智慧代理基礎,提供企業所需的營運保障,確保在維持嚴謹控制的同時也能實現大規模創新。」
Red Hat AI 3.4 為全方位平台,提供能於跨混合雲環境中擴展模型與代理式工作流程所需的架構基礎與營運工具。本次發布的核心在於推出「模型即服務」(Model-as-a-Service,MaaS),開發人員可透過單一、受治理的介面存取精選模型,同時管理員也得以追蹤使用量並強制執行原則。該服務建立於由 vLLM 與 llm-d 驅動的高效能分散式推論基礎上,能在多種環境中維持最佳化且高效的模型服務。
隨著 AI 代理帶動對推論的指數級需求,Red Hat AI 賦能企業大規模部署與管理代理的能力,且不受代理框架的限制。全新推出的 AgentOps 工具能管理從開發至生產階段的各式代理,提供整合追蹤、可觀測性、加密身分驗證(cryptographic identity)與生命週期管理。
為了將企業資料與模型及代理相整合,Red Hat AI 3.4 導入提示詞管理(prompt management,將提示詞視為一等資料資產),以及用於評估模型與代理準確性、品質與安全性的評估中心。上述功能由 MLflow 驅動,為生成式與預測式 AI 應用情境提供整合的實驗追蹤與工件管理(artifact management)。此平台運用 Chatterbox Labs 與 Garak 專案的技術,透過針對模型與代理的自動化安全測試與紅隊演練(red-teaming),賦能使用者驗證模型與代理安全性,提供企業從實驗階段到生產就緒之應用的安全導向路徑。
現階段 IT 團隊的協作方式亟需從根本性轉變,以便從實驗性聊天機器人過渡至生產級自主式系統。許多企業已意識到,為更妥善地管理成本並驅動私有、主權 AI 應用情境,必須從單純的「詞元消費者(token consumers)」轉變為「詞元供應者(token providers)」。然而,建置者與基礎架構管理員之間的摩擦仍為推動採用的主要障礙。若缺乏使這兩種角色保持一致的方法,基礎架構存取受限將阻礙創新,同時「影子 AI(shadow AI)」等捷徑則會引入不受管控的風險與不可預測的成本。
為化解上述衝突,Red Hat AI 3.4 透過為可擴展推論與自主式代理部署提供企業基礎架構,以滿足嚴格的風險與治理標準所需的透明度與控制力。由於代理具備一定程度的獨立性,若缺乏對其決策過程的可視性將引發重大安全風險。對此,Red Hat AI 提供能追蹤各項行動、推理步驟與工具調用的基礎架構,確保 AI 代理的決策過程透明且可供稽核。透過整合加密身分管理,該平台將行動與經驗證的身分相連結,有助於識別執行任務的實體。綜合以上,企業得以跨越零散的試行階段,將 AI 視為可擴展、可預測,最重要的是,作為可問責的實用企業工具。
- 結合可擴展、高效能推論與受治理的模型存取:高效的模型推論仍是生產就緒 AI 的核心。透過將 vLLM 推論伺服器、llm-d 分散式推論引擎與 MaaS 結合,Red Hat AI 3.4 為模型推論提供可靠且高效能的基礎,同時簡化使用者與代理對受治理之模型的存取。
- 為自主式應用生命週期設計的精簡 AgentOps:Red Hat AI 3.4 導入全方位的 AgentOps 功能以協助大規模營運 AI 代理;包含整合式追蹤、可觀測性與評估功能,以及代理身分與生命週期管理,協助企業將代理從開發階段推向生產階段。
- 串連資料與模型及代理:企業資料是驅動模型與代理的關鍵燃料。Red Hat AI 3.4 新增提示詞管理(將提示詞視為一等資料資產),以及用於管理品質、準確性、安全性與風險的評估中心。上述功能由 MLFlow 驅動,MLFlow 亦為生成式 AI 與預測式 AI/ML 應用情境提供整合式的實驗追蹤與工件管理。
- 兼顧模型與代理的整合安全防護:為保護整個 AI 堆疊,Red Hat AI 提供涵蓋從作業系統到代理邏輯的分層安全態勢(layered security posture)。透過提供自動化的安全測試與紅隊演練,企業可採取資料導向的方法進行模型與安全功能的選擇及配置,協助其更妥善地保護 AI 工作負載,免受不斷演進的威脅攻擊。
細節探討
- 進階推論與模型最佳化:Red Hat AI Inference 在其分散式推論功能中加入請求優先級排序,允許互動與背景流量共享同一端點,同時能在負載下優先處理對延遲敏感的請求。Red Hat AI Inference 亦從 Red Hat OpenShift 延伸至包含 CoreWeave 與 Azure 在內的其他 Kubernetes 服務,為企業提供具備跨環境一致性的推論堆疊。推測解碼(Speculative decoding)支援已全面推出,該功能可將回應速度提升 2 至 3 倍,並在幾乎不影響品質的狀態下,降低每次互動的成本。
- 受治理的模型即服務(MaaS):該功能使得平台工程師能透過具備安全增強的 API 端點,並以標準的 OpenAI 相容介面交付精選且經驗證的模型,以便對內部模型與外部 API 進行統一治理,並與基於身分提供者(IDP)的驗證進行整合。
- 整合的提示詞管理:平台提供統一的工具,將提示詞視為一等資料資產進行建置與管理。將驅動模型與代理的輸入內容儲存於中央登錄檔中,為開發人員與管理員提供單一真實來源(single source of truth)。
- 針對模型與代理的自動化評估:Red Hat AI 3.4 導入評估中心,用於評估大型語言模型(LLM)、AI 應用程式與代理、不受特定框架限制的統一 AI 評估控制層。將碎片化的測試方法替換為對品質、準確性與風險進行基準測試的統一方法。
- 多層次安全:自動化的對抗性掃描(adversarial scanning)現已直接整合至開發生命週期中。Red Hat AI 平台運用 Chatterbox Labs 的技術,使用 Garak 篩選模型與代理系統中的越獄(jailbreaks)、提示詞注入與偏見等風險,並搭配 NVIDIA NeMo Guardrails 以確保執行期間的安全性。
- 生產就緒的可觀測性:MLflow 的整合提供代理執行的可見度,透過 OpenTelemetry 實現端到端追蹤,包含 LLM 呼叫、推理步驟、工具執行、模型回應與詞元使用情況。這為涵蓋提示詞、詞嵌入(embeddings)與 RAG 配置的整個生命週期建立透明的稽核軌跡(audit trail),用以支援除錯與稽核。MLFlow 亦為生成式 AI 與預測式 AI 應用情境提供整合式的實驗追蹤與工件管理。
- 基於身分的治理:Red Hat AI 利用加密身分管理(SPIFFE/SPIRE)使企業能以短效期權杖取代靜態的硬編碼金鑰(hardcoded keys)。該功能支援自主式代理在整個堆疊中的最小權限(least-privilege)操作,並協助確認代理行動與經驗證的身分具關聯性。
- 自動化體驗:AutoRAG 與 AutoML 等工具將複雜的 AI 任務自動化,範圍涵蓋從為特定資料集選擇最有效的檢索策略,到建置與最佳化傳統的預測模型。
- 硬體靈活性與託管雲:Red Hat AI 3.4 為 NVIDIA Blackwell GPU 與 AMD MI325X 架構提供 Day-0 支援。透過擴展此統一平台架構以原生型態運行於第三方託管雲中(包含透過 IBM Cloud 上全新的 Red Hat AI Inference),Red Hat 在廣泛的硬體與雲端服務供應商之間提供營運一致性。
夥伴證言
CoreWeave AI 服務產品管理副總裁 Urvashi Chowdhary 表示:「CoreWeave 與 Red Hat 的合作奠基於對開放性的共同承諾,並致力於提供高效能的推論基礎,使企業得以擴展最複雜的 AI 工作負載。我們攜手為 CoreWeave Kubernetes 服務上的 Red Hat AI Inference 提供部署藍圖,使其在地端與雲端皆能運行相同的推論堆疊,並具備 Kubernetes 原生的控制與生產級效能。受惠於此,高度監管產業中的企業 AI 團隊能專注於關鍵任務:建置與擴展 AI,而不用為每個新環境重新調整技術堆疊。」
NVIDIA 企業軟體副總裁 John Fanelli 分享:「為確保大規模的可靠營運,企業中自主式且長時間運作的代理需要更高層級的基礎架構控制與安全性。Red Hat AI Factory with NVIDIA 提供統一且開源驅動的基礎架構,為開發人員與營運人員提供邁向代理式未來所需的治理機制與信心。」
