英特爾AMD聯手!ACE技術打造x86標準矩陣加速架構,大幅提升AI性能
英特爾與AMD兩大x86架構巨頭在市場上可以說是水火不容,不過面對大環境的變化,兩級廠商正通過ACE技術合作開啟x86生態的AI新時代。近日雙方聯合發布了全新的人工智能計算擴展(AI Compute Extensions,簡稱ACE)技術白皮書,將ACE定義為“x86芯片的標準矩陣加速架構”,通過大幅提升矩陣乘法性能,為x86架構帶來AI算力的跨越式升級,這也是雙方推動x86架構統一發展的核心舉措。
早在去年,英特爾與AMD就聯合啟動了“x86生態系統顧問小組”(x86 Ecosystem Advisory Group,簡稱EAG)計劃,核心目標是為x86架構打造一套標準化的功能特性,提升架構的通用性、可擴展性與未來兼容性,鞏固x86生態在AI時代的競爭力。當時雙方就公布了四大核心技術特性:FRED、AVX10、ChkTag與ACE,而此次ACE白皮書的正式發布,標志著這一聯合技術路線邁出了關鍵落地的一步。
在EAG的參與支持下,英特爾與AMD協同完成了ACE指令集架構(ISA)的對齊與優化,最終實現了覆蓋整個x86生態的標準化矩陣加速功能。這套架構方案融合了兩家廠商的技術理念與研發成果,同時吸納了EAG社區廣泛的市場洞察。目前,英特爾與AMD仍在就ACE與AVX10的未來技術路線圖展開深度合作,旨在進一步挖掘AI及更多工作負載領域的技術機遇。雙方表示,x86架構本身已具備廣泛的應用基礎與高性能表現,而ACE指令集的加入,將進一步夯實x86生態的未來發展根基。
白皮書內容顯示,ACE專為x86指令集架構設計,核心價值在于實現矩陣乘法性能、可擴展性與能效的大幅提升。眾所周知,矩陣乘法是AI工作負載中神經網絡與大語言模型(LLM)的核心運算單元,現有的AVX10等單指令多數據流(SIMD)擴展雖可完成矩陣乘法運算,但其可擴展性與計算密度存在明顯瓶頸,而傳統的加速矩陣乘法技術方案,也無法實現高效能的運算優化。針對這一行業痛點,EAG通過ACE技術給出了全新解決方案:在加速矩陣乘法運算的同時,實現更強的靈活性與可擴展性。ACE可復用現有的AVX10優化方案,打造出一套能覆蓋筆記本電腦到超級計算機全場景的可擴展矩陣加速框架。與將AI計算卸載到專用硬件的方案相比,這種跨平臺的統一架構能力,能大幅降低開發者的適配與開發門檻。
英特爾與AMD在白皮書中,將ACE稱作“x86架構的標準矩陣加速架構”。技術細節方面,ACE原生支持INT8、OCP FP8、OCP MXFP8、OCP MXINT8、BF16等當前AI領域主流的數據格式,同時引入了基于外積運算的矩陣加速機制,該機制專為適配AVX10設計。核心性能上,在消耗相同數量輸入向量的前提下,ACE外積運算的計算密度,相比等效的AVX10乘累加操作提升了16倍,實現了算力效率的量級躍升。
作為AVX10指令集的擴展,ACE的軟件生態適配工作已全面推進。目前,多個主流開發工具與框架已啟動集成工作,具體包括:深度學習與高性能計算庫(如低精度通用矩陣乘法、大語言模型基礎算子)、NumPy、SciPy等主流Python科學計算庫,以及PyTorch、TensorFlow等行業主流機器學習框架。ACE的落地,也被行業視作x86架構在AI時代延續生命力的關鍵一步。英偉達首席執行官曾公開表示,英特爾與AMD的x86聯盟,是延續這一架構生命力的必要舉措。而隨著ACE技術的落地與生態完善,x86架構在AI時代的發展,也迎來了全新的發展機遇。
關注我們


