
Amazon Web Services(AWS)長期深耕生成式人工智慧(Generative Artificial Intelligence)領域,擁有成熟的生成式 AI 創新技術與專屬的產業解決方案,不僅提供經廣泛驗證且易於部署的先進 AI 預先訓練模型,並藉由豐富且高性價比的雲端資源以優化成本,大力協助遊戲、電商、媒體、影視、廣告、傳媒等產業快速建構生成式 AI 應用,進一步打造 AI 時代的領先生產力。
AWS 將於 3 月 16 日舉辦AI/ML人工智慧及機器學習解決方案日,由 AWS 技術專家群共同分享與展示最熱門的 AI/ML 關鍵技術,如生成式 AI、大語言模型(LLM)、Low Code/No Code 等創新趨勢,助力台灣企業抓住機遇,再創業務高峰。
AWS 台灣暨香港產品部總監翁宇強表示,「從 AI 技術發展來看,生成式 AI 開啟了一次典範轉移( Paradigm Shift )。大模型、多模態、高產能和海量資料將主導新一輪科技典範的發展,為內容、行銷、遊戲等行業帶來顛覆性創新。AWS 廣泛而深入的生成式 AI 專屬解決方案,以最先進的效能、更優異的性價比和全面的服務應用賦能各行各業,助力各種規模的企業擁抱生成式 AI 的浪潮。」
降低成本,讓生成式AI觸手可及
目前生成式 AI 模型除了大眾熟知的文本和圖片生成,亦包含音訊和影片內容生成,未來將出現越來越多不同種類的生成內容。對企業而言,針對特定場景所建置的模型在成本和準確度都更具優勢,也是目前企業主要採用的模型。晶片效能和高品質訓練是生成式 AI 爆發的基礎,也是實現大規模發展的瓶頸。以往模型的參數量級可能僅是千級或百萬級,但現今擁有十億百億級參數的模型比比皆是,下一代模型甚至很有可能會朝著萬億級參數級別去發展。因此,降低大規模模型的成本便顯得至關重要。
然而,即使機器學習的晶片約每兩年就會有一倍或數倍的提升,仍然不足以跟上日趨複雜的訓練模型。替代的解決辦法就是利用分散式多處理器,透過一個網路進行協同運算、協同訓練。AWS 專門為雲端中高效能模型訓練而搭建的Amazon EC2 Trn1 執行個體,最多可以搭載16顆專門用於機器學習訓練的 Trainium 晶片,512GB 加速器記憶體和 800GBps 的網路頻寬。
Trn1 是擁有高性價比的深度學習執行個體,與基於 GPU 的類似執行個體相比,訓練成本大幅降低了 50%。以一個具備萬億級參數的大模型進行兩周訓練為例,GPU 伺服器 P3dn 需要 600 個執行個體,最新一代 GPU 執行個體 P4d 需要 128 個執行個體,但 Trn1 僅僅只需使用 96 個執行個體便能達成。
2022 AWS re:Invent 全球大會推出了一款基於 Trn1 的網路優化型執行個體 Trn1n,進一步把網路頻寬增加一倍,從 800GBps 躍升到 1600GBps,其強大的網路傳輸能力能夠將超過 1 萬個 Trainium 晶片建構在一個超大規模叢集裡,並在叢集中進行模型的並行訓練。
除了訓練外,大模型也需要超高的推論能力。因此,AWS 建構了 Inf1 執行個體,用自研的推論晶片 Inferentia 提供支援,實現低延遲、低成本的推論。Inf1 執行個體和 GPU 的執行個體相比,每次推論成本可以大幅降低 70%。
去年底 AWS re:Invent 全球大會還推出了下一代自研推論晶片 Inferentia2,以及基於此的 Inf2 執行個體,這是唯一一個專門為大型 Transformer 模型分散式推論建立的執行個體。與 Inf1 執行個體相比,它提供高達 4 倍的輸送量,降低多達 10 倍的延遲。與基於 GPU 的執行個體相比,每瓦效能提升高達 45%,同時也支援諸如 GPT 類型的大型複雜模型,並且可以用單執行個體實現 1750 億參數模型的推論。
AWS 日前也宣佈與 AI 技術公司 Hugging Face 進一步合作,以加速對大語言模型和視覺模型的訓練、微調和部署,使用者能更輕鬆優化效能並降低成本,從而更快地將生成式 AI 應用投入到生產環境。欲瞭解更多 AWS 生成式 AI 相關資訊,請至此連結。
助力產業先行者快速實踐業務可能性
設計和開發體驗管理軟體公司 Qualtrics 核心機器學習負責人 Aaron Colak 表示,「Qualtrics 的重點是借助技術創新縮小體驗差距。為了實現這一目標,我們正在開發複雜的多工、多模態的深度學習模型,包括文本分類、序列標記、論述分析、關鍵短語擷取、主題擷取、聚類以及端到端對話理解等。隨著我們在更多應用程式中使用這些複雜的模型,以及非結構化資料量不斷增長,為了提供客戶最佳體驗,我們需要效能更高的推理優化解決方案,如 Inf2 執行個體來滿足我們的需求。我們很高興看到新一代 Inf2 執行個體的推出,它不僅讓我們實現更高的輸送量,同時也顯著降低延遲,而且還引入了分散式推理和支援增強的動態形狀輸入等功能。隨著我們部署更大、更複雜的模型,這都將能進一步滿足我們對任何部署的更高要求。」