由ChatGPT引發的人工智能風潮還在猛烈地刮著。但從各個角度來看,目前這都是一個巨頭爭霸的戰場:更大的模型、更強的算力、更多的用戶、更雄厚的資金……這些都似乎成為想要加入這場角逐的門票。與此同時,核心技術的研究也逐漸開放走向封閉。
而在這高墻正在築起的過程中,也有一些新銳的創業公司想要高舉旗幟來一場革命。其中,尤其引人註目的是一傢名為Hugging Face開源創業公司。
目前,Hugging Face已經是全球最受歡迎的開源機器學習社區和平臺,不僅創下GitHub有史以來增長最快的AI項目記錄,估值也一路沖破20億美元。近期,微軟和浙江大學聯合發佈的一篇關於HuggingGPT的論文更是把Hugging Face推到舞臺中心,也讓更多人關註到當前這股與眾不同的人工智能發展力量。
01.HuggingGPT火,Hugging是啥?
本月初,微軟亞洲研究院和浙江大學聯合發佈一項最新的名為HuggingGPT的研究,介紹一個全新的協作系統,讓開發者能夠在ChatGPT的幫助下快速、準確地去選擇合適的人工智能模型,從而完成包括文字、視頻、語音等多模態在內的復雜任務。
該項目目前已經在Github上開源,還有一個超拉風的名字叫JARVIS(沒錯,就是跟鋼鐵俠的助手一個名字)。在這個研究中,主要涉及到兩個主體,一個是眾所周知的ChatGPT,另一個則是AI社區Hugging Face。
圖片來自HuggingGPT研究論文
那麼Hugging Face是做什麼的?
簡單來說,Hugging Face是一個針對人工智能的開源平臺,用戶可以在上邊發佈和共享預訓練模型、數據集和演示文件等。目前Hugging Face上已經共享超過10萬個預訓練模型,1萬多個數據集,包括微軟、Google、Bloomberg、英特爾等各個行業超過1萬傢機構都在使用Hugging Face的產品。
在HuggingGPT中,ChatGPT通過扮演“操作大腦”的角色,能夠自動解析用戶提出的需求,接著在 Hugging Face 的“AI模型池”裡進行自動模型選擇、執行和報告,為開發者們開發更復雜的人工智能程序提供極大的便利。
雖然在模型上ChatGPT跟Hugging Face能夠牽手,但從本質上來說,Hugging Face跟OpenAI目前是在做兩個相反方向的事。其中最大的不同點在於,在開發者服務方面,OpenAI現在正在搭建人工智能開發的圍墻,僅允許滿足條件的機構和個人進入,但Hugging Face則希望每個人都可以訪問生成式 AI 模型,包括各類企業和所有普通開發者。
今年2月,OpenAI上線一個名為Foundry的新開發者平臺,允戶可以在這個平臺上運行OpenAI最新的機器學習模型,但在產品的描述中,OpenAI明確表示Foundry是為運行較大工作負載的尖端客戶設計,而根據一份價格表顯示,即使是 GPT-3.5 的輕量級版本,三個月費用高達7.8萬美元,一年費用為 26.4萬美元。
就在Foundry發佈後,Hugging face便立刻宣佈其與 AWS 的最新合作夥伴關系,並發出“讓人工智能走向開放”的呼籲。通過該合作,任何開發人員都將能夠使用 AWS 的托管服務並處理 Hugging Face 上可用的任何模型。
圖片來自Hugging face CTOTwitter
在現在巨頭林立的人工智能戰場上,Hugging Face就像是一支強有力的民間力量。當巨頭們都在努力保持自己生成式 AI 的霸主地位的時候,Hugging Face 的目標則是尋找各種途徑來保持 AI 研究空間的開放。
而這樣特點也讓Hugging Face目前頗有一些“中立”的色彩。無論微軟、Google、亞馬遜、Meta這些大公司打得再激烈,但它們幾乎全都是Hugging Face的支持者。
那麼,Hugging Face究竟是如何發展起來的,它具體做著什麼樣的業務?
02.一次歪打正著的創業,造就AI界的頂流“笑臉”
在普通人的眼中,人工智能一向都屬於“冷感”很強的技術領域,無論是充斥著大量數字、模型的算法,還是由各種機械零件組裝成的機器人,都不免讓人感到有些距離感。但作為專為人工智能開發者服務的Hugging Face卻主打一個反差萌,笑臉Emoji再加上一雙攤開的小手,logo甚至有點過份可愛。
之所以有這樣一個可愛的logo,是因為一開始Hugging Face做的產品其實是一款針對青少年群體的聊天機器人。
當時Hugging Face的想法是基於自然語言處理 (NLP) 的人工智能技術,來為年輕人們開發一個帶有娛樂性、類似於電子寵物一樣的個性化聊天機器人,讓大傢可以在無聊的時候跟它聊八卦、問它問題、讓它生成一些有趣的圖片之類的事情。
這種新穎的人機社交模式得到一些關註。2017年3月9號,Hugging Face App在iOS App Store正式推出,並拿到包括SV Angel、NBA球星杜蘭特在內的120萬美元的天使投資。此後一年多,Hugging Face都一直圍繞著自己的聊天機器人業務在做著自然語言理解的相關訓練並發佈相關的產品,高峰時期每天處理的消息數量達到1百萬條。在2018年5月,它又獲得400萬美元的種子輪融資。
Hugging Face聊天軟件界面
雖然發展的還算不錯,但由於當時的人工智能的理解能力和聊天水平遠不及ChatGPT這樣智能有趣,再加上並非剛需的業務場景,Hugging Face的規模一直都難以擴大。
但為開發這個聊天機器人,Hugging Face的團隊做一個很重要的事,那就是構建一個底層庫來容納各種機器學習模型和各種類型的數據集。包括幫助訓練聊天機器人檢測文本消息情緒、生成連貫的響應、理解不同對話主題等,並且在GitHub上始終以開源項目的形式持續發佈該底層庫的一些內容。
就這樣不溫不火地發展一段時間後,2018年底,Hugging Face迎來一個重要的轉折。
當年11月,Google宣佈推出基於雙向 Transformer 的大規模預訓練語言模型BERT,瞬間成為自然語言理解領域最受開發者關註的模型。但一開始,Google隻發佈BERT的TensorFlow版本,Hugging Face就想為啥沒有Pytorch版本呢?於是Hugging Face創始人之一的Thomas Wolf就用幾天的時間完成並開源PyTorch-BERT,但沒想到,就是這麼一個“無心插柳”的項目讓Hugging Face一炮而紅。
借著BERT的東風,Hugging Face的Pytorch-pretrained-BERT發佈3個多月後,快速達成在Github上5000+ 星標的成就,到7月份其Star數量已經超過1萬,發展速度遠超其他同類開源項目,在Github的AI項目領域裡一飛沖天。
在這樣的發展勢頭下,Hugging Face的產品戰略開始發生調整。他們將更多精力放到開源模型的建設上,將 Pytorch-pretrained-BERT項目正式命名為Transformers,同時支持Pytorch和Tensorflow 2.0。
借助 Transformers庫,開發者可以快速使用BERT、GPT、XLNet、T5 、DistilBERT等NLP大模型,並使用這些模型來完成文本分類、文本總結、文本生成、信息抽取、自動QA等任務,節省大量時間和計算資源,此後Hugging Face在人工智能開源領域的名氣也越來越大。
Hugging Face在Github上的Star曲線,圖片來自於Lux Capital
到2019年12月,Hugging Face拿到由Lux Capital 領投的A輪融資,融資額也比上一輪上一個量級達到1500萬美元。值得註意的是,從這一輪開始,Hugging Face的標簽開始不再是聊天機器人,而是把AI開源業務放在首位。這張可愛的笑臉emoji也開始被廣大人工智能開發者們所熟知。
03.朝著人工智能界的Github前進
在2019年底All in AI開源之後,Hugging Face開始著手構建一套完整的開源產品矩陣。用Hugging Face自己的話來講,他們所做的事情,就是要架起人工智能科研和應用的橋梁(bridges the gap from research to production)。
過去這些年,人工智能領域的科研和商業應用是相對獨立的兩個板塊,科研部門的任務就是對前沿技術進行研究,搞模型、發論文,應用部門的人則是要將最新技術用到產品中探索商業變現。如何將科研成果進行系統性的整合成為開源產品,讓開發者們能夠很快上手去應用轉化是長期困擾業界的一個問題。
Hugging Face之前歪打正著地摸到這個痛點,接著開始認真向下挖掘。簡單來說,Hugging Face就是承擔人工智能科研走向應用這個過程中幾乎所有復雜、繁瑣、細碎的工作,然後方便任何人工智能從業者都可以去便捷地使用這些研究模型和資源。
目前,除頭號產品Transformers之外,Hugging Face還建立Tokenizers、Datasets、Accelerate等庫,從模型到數據集、從托管平臺到性能優化,以開源社區為載體,Hugging Face已建立起完整的人工智能開發生態,涵蓋 NLP、計算機視覺、語音、時間序列、生物學、強化學習等各個領域。
值得註意的是,Hugging Face並不是因為ChatGPT帶火的。2022年5月,當市場的註意力都還停留在Web3、元宇宙之上時,Hugging Face拿到有紅杉、Lux Capital參與的1億美元融資,讓其估值一舉突破20億美元。
Hugging Face的融資歷史,圖片來自於企查查
Hugging Face當前的目標是想成為人工智能領域的Github。其創始團隊認為,隻有將那些少數人掌握的技術推廣給更多人使用,才能真正最大程度地推進整個行業的進步。而從商業的角度來說,Hugging Face認為賦能整個AI社區所可能產生的價值可能比一個專有的工具高出千倍,而隻要將其中的1%變現就能夠足以撐起一個高市值的公司,類似的例子包括MongoDB、Elastic等等。
除蓬勃發展的開源社區,從2020年開始,Hugging Face也開始做面向企業的定制自然語言模型,其客戶涵蓋彭博社、高通、英特爾等各類大中小型公司,並推出包括AutoTrain、Inference API & Infinity、Private Hub、Expert Support等針對不同開發者類型的產品。據報道顯示,從2021年開始Hugging Face就一直處於正現金流的狀態。
Hugging Face的的產品服務,圖片來自於其官網
Hugging Face在當前的人工智能領域中能夠以開源社區的模式異軍突起,有一些偶然也有必然。首先,過去這些年,人工智能技術所取得的進步都是由全世界的科研和產業領域共同協作所推動的,它的技術基因裡其實就帶著開放,因此建立起一個平臺來鏈接研究者和開發者順應行業發展的歷史和趨勢。
此外,Hugging Face通過完成大量的基礎性工作,來幫助彌補在人工智能領域裡長期存在的科學與生產之間的鴻溝,這是過去很多開源平臺沒有關註和做到的。
在此前的一個采訪中Hugging Face的CEO Clément Delangue表示,機器學習技術仍然還處於早期發展階段,開源社區的能力將是巨大的。他認為,在未來5到10年,我們一定還會看到更多開源機器學習公司的崛起。