大模型時代下的技術變革:訓練、負載、部署、效率、安全……都遇到新挑戰?


聲明:本文來自於微信公眾號 InfoQ(ID:infoqchina),作者:魯冬雪,授權站長之傢轉載發佈。

隨著互聯網的快速發展,AI 大模型算的上是當前行業裡最“熾手可熱”的技術,大模型是 AI 領域的重要發展趨勢。大模型需要大量的數據和計算資源,同時也需要強大的應用場景支持,對各行各業都有深遠的影響,各廠商開始“千模大戰”。

當前,在 AI 大模型的研發和應用方面,產業界和學術界在很多方面都有深入的合作和探索。產業界和學術界都有各自的優勢——產業界在數據采集、計算資源、應用需求理解等方面有獨特的優勢,學術界則在理論創新、方法研究、前沿技術探索等方面有顯著的優勢。

然而,在這個大模型時代,算力資源、數據質量和規模都對模型的性能有著至關重要的影響,包括數據安全也是當前亟需解決的問題。所以,在產業界和學術屆深度融合探索下的 AI 大模型技術都有哪些進展和變化?在這個過程中,是否釋放出新機遇?這兩個問題的答案似乎在英特爾及其夥伴的實踐中找到。

1

大模型的訓練與負載:算力與成本之間需要尋找一個平衡

隨著人工智能和深度學習的發展,模型訓練所需的數據量和處理能力在不斷增加。多傢研究報告顯示,當前大型模型的訓練數據量通常都達到數百萬甚至數千萬級別。這些大型模型在進行訓練時,需要處理的參數量相當龐大,例如 GPT-3在訓練時使用28.5萬 CPU 核心,總算力為17.5億億次,消耗大約250萬美元的 GPU 算力。大模型對大規模數據和計算資源的需求,對算力相關的硬件和軟件都提出更高要求。

為提高模型的效果,往往需要采用更復雜的模型結構和訓練策略,這也進一步增加算力需求。同時,由於模型訓練需要大量的時間和資源,訓練時間也成制約大模型發展的一個重要因素。對於一般企業而言,擁有如此強大的計算資源並不現實,因此企業都在積極尋找可以迭代優化模型訓練和推理的基礎設施。

然而算力與成本之間存在著明顯的矛盾。首先,大模型訓練需要大量的算力資源,而這些資源通常需要花費高昂的成本來獲取。其次,數據傳輸和處理也會產生大量的成本,因為需要將大量數據從存儲設備傳輸到計算設備進行處理。此外,硬件維護和軟件開發也需要投入大量的人力物力。因此,在提高大模型訓練效果的同時,廠商需要考慮如何平衡算力與成本之間的關系。

從整個模型的生態來看,其對於整個生態的部署要求肯定是“效率越來越高、成本越來越低”越好。英特爾院士、大數據技術全球 CTO 戴金權對此也表示:“從計算的角度來看,大模型需要很多的預訓練,把模型預訓練出一些比較好的基數。訓練之後如何去用它、部署它,包括推理效率、微調效率,包括大模型其實是嵌入在一個端到端的一個工作流裡面去後還能保持工作負載平衡。從這種計算角度來說,除預訓練外,還需要做更多計算場景的策略和優化。”

戴金權的觀點也顯示出英特爾的技術探索路徑。為保證負載平衡,英特爾提出 Habana®Gaudi®2的解決方案,其專註於深度學習的高性能解決方案,可滿足大規模、高復雜性生成式 AI 和大型語言模型 (LLM) 訓練工作負載的需求。

Gaudi2采用經過驗證的高性能深度學習 AI 訓練處理器架構,利用 Habana 完全可編程的 TPC 和 GEMM 引擎,支持面向 AI 的高級數據類型,如 FP8、BF16、FP16、TF32和 FP32等,是一款性能更高的計算架構。值得一提的是,TPC 是一款 VLIW SIMD 矢量處理器,其指令集和郵件經過定制,不僅支持深度學習訓練和推理工作負載,還可高效處理工作負載。

除計算能力突出,Gaudi2的內存帶寬和容量也十分突出,其采用先進的 HBM 內存技術,內存容量高達96GB,內存帶寬高達2.4TB/s。Gaudi 先進的 HBM 控制器已針對隨機訪問和線性訪問進行優化,在各種訪問模式下均可提供高內存帶寬。

Gaudi2的能力其實就是幫助企業通過優化訓練流程來降低成本——通過提高訓練效率來減少訓練時間,同時優化模型結構,減少參數量,從而降低算力和成本。除這兩種方式,企業其實還可以采用更加經濟的算法和硬件資源來實現“算力與成本之間的平衡”,例如使用 GPU 代替 CPU 進行計算,目前很多硬件廠商也都在此方向上進行發力。

比如英特爾®Data Center GPU Max 系列則是專為應對最嚴苛的高性能計算 (HPC) 和 AI 工作負載而設計。英特爾®Xe Link 高速、一致的統一架構可靈活運行任何外形規格,實現縱向擴展和橫向擴展。其利用“基於獨立 SRAM 技術”的高達408MB 的 L2高速緩存 (Rambo)、64MB 的 L1高速緩存,以及高達128GB 的高帶寬內存,確保高容量和高帶寬。同時還利用每個英特爾®Max 系列 GPU 上高達128個光線追蹤單元,加速科學可視化和動畫過程;利用搭載深度脈動陣列的英特爾®Xe Matrix Extensions (XMX),在單個設備上加速 AI 工作負載,並啟用矢量和矩陣功能,極好地幫助企業找到算力與成本之間的平衡。

2

大模型的部署:除解決多場景,更重要的是提高效率

戴金權對於“未來 AI 大模型技術創新及發展潛力”有許多值得行業從業者咂摸的觀點:“大模型給我們一個啟示,大模型技術的前提不隻是計算,而是訓練本身,比如三階段的訓練,舉個例子——很多大模型“詩寫的好”,但是“寫代碼”不行,然後你就會發現它一般都會再發一個相應的“code 大模型”;而“什麼都行”的大模型可能寫代碼就沒有“code 大模型”寫的好。其實本質上它是一個多任務或多目標的學習,所以是不是有辦法來提升通用大模型的單項能力,這是一個很有意思的探索方向。但不管算力也好、成本也好、效率也好,怎麼樣利用是需要大傢共同去探索的問題。比如大模型有很多不同的部署的場景,預訓練、微調、推理、嵌入到工作流裡去等等。如何通過硬件的 XPU 不同計算平臺、軟件上的各種技術能力來提高它的部署效率,這是另一個需要各廠商要去探索的問題。”

從戴金權的觀點出發,並基於筆者對於行業的觀察,我們基本上是可以總結出大模型當前的部署現狀的:

  • 模型部署難度較高:隨著模型規模的不斷擴大,需要消耗的計算資源、存儲資源、網絡資源等也越來越多,部署難度逐漸增大。

  • 對硬件資源需求大:大模型需要大量的 GPU 內存來進行計算,需要高性能的服務器來存儲和傳輸數據,對硬件資源的需求非常大。

  • 需要支持並發處理:為提高模型推理速度和效率,需要支持並發處理,這對服務器的並發處理能力提出更高的要求。

從部署問題上,英特爾的合作夥伴騰訊雲的解決方案就非常值得借鑒,在易用性方面,騰訊雲訓練集群的開啟涉及復雜的系統設計,如 HCC 集群和分佈式計算網絡互通,並在實例設計時呈現給 AI 開發者一鍵部署功能,實現工程化效率提升;此外在供訓練過程中,HCC 還具有高穩性能和故障自愈能力。從成本方面,騰訊雲通過資源調度(如潮汐算力)實現集群效率最高。例如,在訓練過程中,可能不會對加速芯片本身進行調度,而是將數據預處理或 DLC 業務與邏輯計算單元混部,以提高算力集群利用率。在部署效率方面,AI 開發者常遇到驅動版本不一致、兼容性等問題。騰訊雲致力於在雲原生環境中為大傢提供更多一鍵部署和開發工具鏈,以縮短開發時間並提高效率。”

當然,為解決大模型的部署問題,英特爾確實沒有少做努力。比如專為大模型時代發展而生的 Gaudi®2在第一代基礎上做許多升級,第二代 Gaudi AI 深度學習夾層卡 HL-225B 專為數據中心實現大規模橫向擴展而設計。其 AI 處理器基於第一代 Gaudi 的高效架構打造而成,目前采用7納米制程工藝,在性能、可擴展性和能效方面均實現飛躍,是一個“名副其實”的用於生成式 AI 和 LLM 訓練的功能強大且經濟高效的深度學習解決方案。

尤其值得說的是,在擴展性方面,Gaudi2處理器具備出色的2.1Tbps 網絡容量可擴展性,原生集成21個100Gbps RoCE v2RDMA 端口,可通過直接路由實現 Guadi 處理器間通信。Gaudi2處理器集成專用媒體處理器,用於圖像和視頻解碼及預處理。此外,Gaudi2深度學習夾層卡還符合 OCP OAM1.1(開放計算平臺之開放加速器模塊)等多種規范,可以為企業業務帶來系統設計的靈活性。

在2023英特爾 On 技術創新峰會上,英特爾介紹的一臺大型 AI 超級計算機,便是完全采用英特爾至強處理器和4000個英特爾 Gaudi2加速器打造的,據說它將躋身全球 TOP15超算,目前熱門 AIGC 應用 Stable Diffusion 的開發商 Stability AI 已經在全面使用它。同時英特爾首席執行官帕特·基辛格在本次峰會上還向大傢透露 Gaudi3的推出進程,“采用5nm 制程的 Gaudi3將於明年推出,其算力是 Gaudi2的兩倍,網絡帶寬、HBM 容量是 Gaudi2的1.5倍。”這意味著,大模型的部署效率問題可能在明年將實現一個飛躍式發展。

事實上,除 Gaudi2,為更好地完成大模型的部署,英特爾®至強®可擴展處理器也一直在升級迭代,其無處不在的計算解決方案,配備英特爾®AMX 和其他集成式 AI 加速器,可在數據中心或邊緣應用運行實時、中等吞吐量、低延遲的模型及應用。像阿裡雲通義千問大模型便是內置 AI 加速器的第四代英特爾至強可擴展處理器用於其生成式 AI 和大語言模型,英特爾技術大幅縮短該模型的響應時間,平均加速可達3倍。

基辛格表示,第五代英特爾®至強®可擴展處理器未來將在同樣功耗下,將有效提升數據中心的性能和存儲速度,相比於第四代,該處理器在 AI 方面的性能將提升2-3倍。據悉,該處理器將於12月14日發佈,非常值得大傢密切關註。

3

大模型的安全:將成為未來需要重點關註的問題

今年8月底,首批通過備案的人工智能大模型名單出爐,這意味著這些生成式 AI 產品可以正式面向公眾開放註冊、提供服務。那在發佈前後,大模型應用技術的開發速度或者供應商方面的技術演進上有何變化?對於該問題,戴金權表示——“如何更好地保護模型、保護數據、保護業務問題等安全問題變得越來越重要。”

所有技術在經歷爆火和高速發展的過程後,最終都會落到“安全”問題上,所以大模型也不例外。伴隨著 AI 大模型的復雜性和應用范圍將進一步擴大,其安全隱患將越來越多。例如,隨著量子計算等新技術的出現,AI 大模型將面臨更高級別的安全威脅。同時,隨著數據隱私保護等法律法規的出臺,企業當前越來越重視 AI 大模型的數據隱私保護工作。因此,未來需要加強技術研發,完善 AI 大模型的安全保障機制。

當前 AI 大模型安全現狀並不樂觀,技術漏洞是當前 AI 大模型面臨的主要安全問題之一。例如,模型被黑客攻擊、惡意註入病毒等問題時有發生。代碼實現不當也可能導致 AI 大模型出現安全問題,比如有些模型在實現過程中可能存在未經驗證的功能或邏輯漏洞,給惡意攻擊者留下可乘之機。

我們溯源一下問題根本,數據質量差是影響 AI 大模型安全的重要因素之一。例如,如果數據本身存在大量噪聲或缺失,將直接影響模型的訓練效果和安全性。為保護、清洗這些數據,英特爾在機密計算領域投入大量研發資源,在2015年推出英特爾®SGX,其是一種安全相關的指令,被內置於一些現代 Intel 中央處理器(CPU)中,它可以在基於硬件的可信執行環境中執行計算,確保任務和數據的安全性,防止被惡意程序竊取。在管理敏感數據和受監管數據方面,機密計算技術可以提高相關組織的安全級別。

此外,英特爾®TDX 是另一項前沿安全技術,其在虛擬機層面支持機密計算,滿足虛擬機安全需求。所以英特爾的“機密計算”也被戴金權稱為是一個“端到端”的能力,“大模型安全並不是隻需要在一個環節安全,整個流程都需要安全,而英特爾的機密計算從數據存儲、加密、整個分佈式計算、網絡通訊,包括遠程驗證等都完成實現安全保護。”目前英特爾作為“機密計算聯盟(Confidential Computing Consortium)”成員之一,正在持續積極推動機密計算技術的標準化和普及。

4

寫在最後:AI 大模型對基礎設施、硬件提出更高要求

隨著大模型技術逐漸進入深水期,各企業在相關技術方面的驗證逐漸全面,大傢都已經非常明確,如果想要充分釋放 AI 大模型的潛力,僅依靠軟件層面的優化是不夠的,基礎設施硬件設備的性能和穩定性也在 AI 大模型的高效運行中扮演著至關重要的角色。

當前大模型對基礎設施的要求非常高。就單從硬件方面來看,大模型需要大量的高性能計算資源,包括 CPU、GPU 和 TPU 等。這些計算資源需要具備高並發、低延遲的特點,以滿足 AI 大模型的計算需求。同時,為提高計算效率,需要采用先進的芯片設計和制造技術,加強芯片間的通信和協作。

為滿足大模型對硬件性能的高要求,硬件廠商需要不斷提升自身的研發實力和技術積累。這包括對先進制程技術的掌握,以及對各種處理器架構的深入理解。此外,硬件廠商還需要與軟件廠商緊密合作,共同優化大模型的性能。通過軟硬件的協同創新,可以充分發揮硬件設備的性能潛力,為大模型的發展提供強大的支持,無論是從算力、效率、成本還是安全等各個方面。

於此,大模型對硬件廠商的技術能力也提出更高的要求。這意味著硬件廠商需要具備跨學科的能力,以整合不同領域的技術資源,為企業提供更加完善的解決方案,以滿足不同行業和應用場景的需求。

不僅是硬件廠商,大模型技術的發展離不開產業鏈上的每一個角色,眾人拾柴才能火焰高,大模型時代需要學術界和產業界進行深入地合作和聯動。通過聯動,學術界的研究成果可以更快地應用於產業界,推動技術的發展和進步,同時產業界的需求和反饋也可以引導學術界的研究方向,使其更加貼近實際應用場景。在當前這個大模型時代的背景下,合作和聯動可以促進不同組織之間的協作,實現資源的共享和整合,提高研究的效率和成果的質量。

正如戴金權所說的那樣,“英特爾一直堅持開源開放,無論是從客戶側的產業界合作,還是從學術界的高校合作,英特爾都在持續推動,相信在多方的努力下,大模型技術的發展將會越來越好。”


相關推薦

2023-09-19

AIGC”,取而代之的是“生成式AI”、“LLaMA2”以及“AI大模型”等新詞。這場由“Chat GPT”引發的內容生產力大革命,已經慢慢走出單一的“對話式場景”,並迅速蔓延到商業應用的各個場景,尤其是“AI數字員工”的出現,更是

2023-11-16

,一口氣公佈 100 多項以AI為中心,在雲計算基礎設施、 模型即服務 MaaS 、數據平臺、Copilot 人工智能助手等方方面面的新產品和新功能。薩提亞展示 Azure Cobalt CPU 芯片|Microsoft其中,既有 Azure Cobalt、Azure Maia 這樣專門為 AI 打造

2024-03-27

息(從上圖中也可以看出),關於OpenAI手中握著的一大把模型——比如,Arrakis/GPT-5在GPT-4不久後訓練3個月,於22年10月結束;在GPT-5之後,GPT-4.5於23年4月完成訓練。最勁爆的消息當然就是,現在GPT-6或許已經在訓練中。但是,GPT-5

2024-05-01

foqchina),作者:凌,授權站長之傢轉載發佈。1視頻生成模型“新王登基”,Sora 何以成為全球焦點?2023年以來,多模態視頻生成技術取得顯著的進展和突破,從 Runway 到 Pika 再到年末的 VideoPoet,視頻生成模型進入到加速階段。20

2023-02-22

受,由此帶來的是更加清晰、長遠和深刻的變化。大語言模型是一個可能跟移動互聯網相當級別的事情,中美大公司都在全力入場,我知道國內很多互聯網大佬級人物也都在思考如何驅動自己的公司進行研究和變革。”真格基金

2023-07-16

化為最終的生產力。隨著 AI 技術的高速發展,以及 AI 大模型的廣泛應用,AI 算力需求正在快速增加,大概每隔3-4個月就會增加一倍。如今,對 AI 任務所需算力總量的度量單位已經進入 PD 時代(PetaFlops/s-day),即用每秒千萬億

2024-07-06

大模型向下紮根深入行業,必須要破解高質量數據供給的挑戰。7月5日,2024年世界人工智能大會進入第二天,作為數據要素領域的主要技術服務商,螞蟻集團發佈“隱語Cloud”大模型密算平臺,通過軟硬件結合的可信隱私計算技

2023-12-27

,感興趣的朋友可以去搜索。王小川作為已經8個月在AI大模型賽道的創業者,也是國內大模型廠商的第一批,相信他對於AI產品經理的看法、變化、和發展想法,是非常具有借鑒意義的。其中提到“新范式”產品經理的到來,我

2023-03-30

益強大之際,為其設置安全護欄,並暫停訓練更先進的AI模型。他們認為,對於像OpenAI的GPT-4這樣強大的AI模型,“隻有在我們確信它們的影響是積極的、風險是可控的情況下才應該開發”。當然,這並不是人們首次呼籲為AI設置

2023-11-19

會面對不確定的環境,專註建立雲智能集團可持續增長的模型。對於投資者就阿裡雲的上市計劃是暫停還是永遠取消,市場形勢有所變化後,會不會重新考慮阿裡雲的分拆的相關問題,蔡崇信並未做出明確回答。一、阿裡雲又崩

2023-02-09

成4個方面開展工作。快手表示,目前正開展大規模語言模型(LLM,Large Language Model)相關的研究,並啟動相應專項,覆蓋LLM模型訓練、文案自動創作與生成、對話系統開發等領域。小米則認為,其在ChatGPT領域有豐富落地場景,

2023-04-14

k服務,支持用戶通過API訪問亞馬遜自己的Titan(泰坦)大模型,是由今天推出的兩個全新大語言模型組成;同時支持調用來自AI21 Labs、Anthropic、Stability AI等第三方的多樣化模型。目前,OpenAI開放ChatGPT的API,但微軟、谷歌並未推

2024-05-09

述業內人士對第一財經記者表示:“特斯拉的自動駕駛大模型訓練部署在北美,在中國獲得的感知數據如果不能傳回美國用作訓練輸入,那就要在中國本地部署訓練環境。”該人士認為,要解決這些問題,有兩種方案。“要麼中

2024-02-23

在看似有一戰之力的對手AMD。2023年6月,AMD專門針對AI大模型訓練需求發佈一款能夠直接對標英偉達大模型訓練芯片H100的產品Instinct MI300系列芯片。根據AMD官方信息,MI300在部分技術指標上相比英偉達的H100更具優勢,比如MI300提供