至強處理器助力 Bud Ecosystem 打造 Embedding 推理解決方案
執行摘要
AI 的迅猛發展,尤其是生成式 AI (GenAI) 的快速普及,為創新開啟了新紀元,它可助力企業推動工作流程變革、優化客戶體驗,并從數據中獲取更多洞察。
Embedding(嵌入或向量表征類)模型作為眾多生成式 AI 應用的核心要素,在語義搜索、推薦系統、欺詐檢測和知識管理等任務中發揮著關鍵作用。然而,在生產環境中大規模部署 Embedding 模型仍會面臨嚴峻挑戰,往往會受到高錯誤率、時延瓶頸以及不斷攀升的基礎設施成本等因素的阻礙。
生成式 AI 研究實驗室 Bud Ecosystem 敏銳捕捉到這些企業痛點,并著手開發能夠破解難題的先進推理引擎。其成果便是 Bud Latent —— 專為 Embedding 模型而設計和優化的生產就緒型推理引擎。該引擎旨在為基于 Embedding 模型的 AI 應用提供更出色的性能、準確性和成本效益。與英特爾® 至強® 處理器結合使用時,Bud Latent 可為企業提供擁有更高性能且更為經濟高效的解決方案,助力實現新一代 AI 應用的大規模部署。
對高性能 Embedding 推理的需求日益增長
在當今數據驅動的環境下,Embedding 模型已成為眾多企業應用中不可或缺的組成部分。這類模型可將文本、圖像、音頻等復雜數據轉化為能夠捕捉語義和關系的稠密向量表示,進而實現多種強大的功能,其中包括:
- 增強搜索相關性:通過理解查詢與文檔的深層語義,Embedding 模型能顯著提升海量信息庫中搜索結果的準確度與相關性。
- 個性化內容推薦:嵌入用戶偏好和內容特征有助于在電商及媒體平臺實現高度定制化的內容推薦,從而更有效地提升用戶參與度和轉化率。
- 高級欺詐檢測:通過嵌入分析識別交易數據中的細微異常及模式,可強化金融服務領域的欺詐預防與風險管理能力。
- 智能知識管理:嵌入文檔和知識庫有助于企業和機構實現更高效的信息檢索、知識發現以及內部協作。
- AI 代理與自動化:基于 Embedding 的 AI 代理可理解并響應復雜用戶查詢,實現工作流自動化,并為多種客戶服務及運營職能提供智能輔助。
隨著越來越多的企業將基于 Embedding 的應用整合到核心業務中,他們對于性能和功能更為出色的推理解決方案的需求日漸迫切。推理是從新數據生成嵌入的過程,需要滿足快速、準確和經濟高效三大要求,方能支持實時應用和大規模部署。
現有 Embedding 推理解決方案面臨重重挑戰
盡管 Embedding 模型扮演著重要角色,但傳統推理引擎往往難以滿足企業級生成式 AI 部署的嚴苛要求。Bud Ecosystem 的實踐經驗揭示了現有解決方案的重大局限:
- 高錯誤率:測試表明,Hugging Face 的文本 Embedding 推理 (TEI) 等主流推理引擎在處理較長上下文(8000 個詞元)時,錯誤率竟高達 94%。同樣,Infinity 推理引擎在同等條件下也顯示出高達 37% 的錯誤率。如此高的錯誤率使得這些工具無法應用于對準確性要求嚴苛的生產環境。
- 性能瓶頸:許多現有推理引擎難以將時延和吞吐量維持在可接受的水平,處理大模型和大量請求時這些問題尤其突出。這會影響實時應用的響應能力,限制部署的可擴展性。
- 穩定性問題:測試發現,TEI 在輸入上下文長度達到 16,000 個詞元時會發生崩潰,暴露出嚴重的穩定性問題。這可能導致服務中斷,并對業務運營造成負面影響。
- 成本效益低:資源利用效率低下以及對專用硬件的需求,會增加大規模部署 Embedding 模型的運營成本,導致企業難以充分挖掘生成式 AI 的潛力。
這些挑戰表明,當前迫切需要新一代推理引擎,以突破現有局限,在生產環境中實現無縫、能效和經濟效益更優的 Embedding 模型部署。
Bud Latent:專為生產就緒型 Embedding 模型推理而設計
Bud Ecosystem 認識到現有解決方案存在的重要缺陷后,著手開發了 Bud Latent。這是一款生產就緒型推理引擎,專為優化 Embedding 模型的性能、準確性和成本效益而打造。Bud Latent 標志著重大技術飛躍,有助于解決長期困擾傳統推理引擎的核心難題。
Bud Latent 的核心優勢:
- 更強的穩定性:相較于處理較長上下文時發生崩潰的 TEI,Bud Latent 展現出更強的穩定性,即便在嚴苛條件下也能更有效地避免服務中斷并提供更可靠的性能。
- 生產就緒型設計:Bud Latent 專為生產環境而打造,提供多云和多硬件支持,具備橫向擴展和自動擴展能力,并配備完善的監控和追蹤工具。
- 廣泛的模型兼容性:Bud Latent 無縫集成 Hugging Face、ModelScope 等主流平臺模型,同時兼容本地存儲模型,提供更高的靈活性和易用性。
- 多平臺支持:Bud Latent 提供廣泛的硬件兼容性,讓企業能夠在現有基礎設施及未來硬件選擇之上持續優化性能。
- 多樣化功能:除生成嵌入外,Bud Latent 還可用于重排序模型、文本管理、提示路由、多模態和跨模態應用及文本分類,為多種 AI 任務提供統一的推理解決方案。
- 零配置:通過 Bud Simulator 集成,Bud Latent 可自動識別生產部署的較理想配置,大大減少人工調優,從而顯著提升性能和成本效益。
- 自動化硬件規格評估與查找:Bud Latent 能夠跨不同云平臺自動識別合適的硬件,并確定滿足性能需求的較為理想的硬件規格,同時盡可能降低總體擁有成本。
- 動態批處理與分詞:專用工作線程負責動態批處理和分詞,可為高流量應用提高資源利用率和吞吐量。
- 靈活部署方案:Bud Latent 支持云端、本地、自帶云 (BYOC) 及客戶端部署,能夠以出色的靈活性滿足多樣化企業需求。
- 解決硬件供應難題:Bud Latent 具備異構集群部署能力,可實現跨 16 個云平臺自動化硬件查找與配置,能夠在保障硬件可用性的同時提供可擴展性和成本優化。
- 利用工作線程實現橫向擴展:架構支持通過工作線程進行橫向擴展,能夠更高效地應對不斷增長的請求量,并實現更優負載均衡。
- INT8 和 FP8 精度支持:Bud Latent 支持多種硬件(如 CPU、英特爾® Gaudi® AI 加速器)上的 INT8 精度,以及高性能 GPU 上的 FP8 精度,能夠在不影響準確性的前提下加快計算速度并降低內存占用。
- 多模型同步運行:Bud Latent 能夠同時運行多個模型,為單一部署場景中處理多樣化用例提供了更出色的靈活性。
- 多模態支持:Bud Latent 支持文本、圖像、音頻等多種 Embedding 類型及重排序模型,有助于打造更全面的 AI 應用,使其能夠處理更多種類的數據格式。
發揮英特爾的技術優勢
Bud Latent 在多種硬件平臺上均有顯著優勢,而其與英特爾® 至強® 處理器的集成,更是為企業帶來了更具吸引力的解決方案,能夠為生成式 AI 部署提供更具性價比、更高性能的基礎。
英特爾® 至強® 處理器專為要求嚴苛的工作負載而設計,能夠更好地兼顧性能、可擴展性和能效。Bud Latent 經過專門優化,可更好地利用英特爾® 至強® 處理器的內置加速能力,其中包括:
- 英特爾® AVX 和 AMX 優化:Bud Latent 支持英特爾® 高級矢量擴展(英特爾® AVX)和英特爾® 高級矩陣擴展(Intel® Advanced Matrix Extensions,英特爾® AMX)技術,能夠充分發揮英特爾® 至強® CPU 的并行處理能力,從而顯著提升運行 Embedding 推理任務時的性能表現。
- 經優化的自定義內核:Bud Latent 集成了高度優化的自定義內核,針對英特爾® 至強® 處理器微架構經過專門調優,能夠進一步提升性能和能效。
- NUMA 節點感知:Bud Latent 運行時旨在更高效地利用英特爾® 至強® 系統中的非一致性內存訪問 (NUMA) 節點,從而優化內存訪問模式并提升整體性能。
顯著提升 Embedding 推理性能
為應對行業的迫切需求,Bud Latent 將性能和準確性提升到了全新的水平。相較于其他現有解決方案,Bud Latent 能夠提供更高的準確性和更出色的性能表現。
更出色的性能表現
基準測試表明,Bud Latent 的推理速度較 TEI 提升高達 90%、較 Infinity 提升高達 85%。
這意味著它能夠顯著降低時延、提升吞吐量,從而更好地支持實時應用并應對大規模部署。
圖 1. Bud Latent 與 TEI、Infinity 的時延隨請求量變化情況對比
更高的準確性
Bud Latent 在處理長上下文(8000 個詞元)時,實現了低于 1% 的錯誤率,相較于 TEI (94%) 和 Infinity (37%) 展現出顯著提升1。
這種高準確性有助于確保基于 Embedding 的應用的可靠性和可信度。
圖 2. Bud Latent 與 TEI、Infinity 的失敗請求隨輸入詞元量變化情況對比
Bud Latent 與英特爾® 至強® 處理器的協同優勢能夠帶來:
- CPU 上的性能提升:基準測試表明,與其他推理引擎相比,在英特爾® 至強® 處理器上使用 Bud Latent 時能夠帶來顯著性能提升。這讓企業能夠利用既有的 CPU 基礎設施部署生成式 AI,在多數情況下無需購置昂貴的專用硬件。
高達
1.4 倍性能提升
(相較于 TEI,在英特爾® 至強® 處理器上的性能表現)
- 成本效益:英特爾® 至強® 處理器具備更高的成本效益,是大規模生成式 AI 部署的高性價比之選。而 Bud Latent 則可提供更高的資源利用率。二者的結合能夠幫助企業大幅降低基礎設施成本。
- 生產就緒、穩定可靠:英特爾® 至強® 處理器具備經驗證的可靠性和穩定性,與 Bud Latent 強大可靠的設計及低錯誤率相結合,可為關鍵任務型的生成式 AI 應用奠定堅實基礎。
- 可擴展性:英特爾® 至強® 處理器提供更出色的可擴展性,讓企業能夠隨需求增長而輕松擴展生成式 AI 部署規模。Bud Latent 的橫向擴展能力也進一步提升了可擴展性。
助力釋放企業潛能:賦能多樣化用例
AI 代理
構建錯誤率低于 1% 的高性能生產就緒型 AI 代理,實現客戶服務、運營管理、技術支持等工作流程自動化
電商與個性化推薦
通過動態的用戶特定內容分發增強推薦引擎
企業搜索與知識管理
加速海量文檔庫和數據庫中的信息搜尋與檢索
金融服務與欺詐檢測
通過實時嵌入對比,強化異常檢測和風險分析能力
醫療與生命科學
通過在生物醫學數據集中加速相似性搜索,提升醫學研究和診斷水平
結論
生成式 AI 的崛起為各行各業帶來了重要的變革機遇。然而,充分釋放生成式 AI 潛力的關鍵在于,需要能夠高效精準地大規模部署 Embedding 模型。借助英特爾® 至強® 處理器帶來的更優性能和更高性價比,Bud Latent 能夠為企業提供生產就緒型解決方案,助力攻克在準確性、性能、可擴展性及成本等方面面臨的核心挑戰。
