2月9日,發表在美國《科學公共圖書館·數字健康》的一篇文章提到,ChatGPT參加美國執業醫師資格考試。這項以高難度著稱的考試中,共350道題,內容涵蓋基礎科學、生物化學、診斷推理和生物道德學。ChatGPT未經專門的培訓或強化,經過兩名評審員打分,三部分的成績接近或超過及格門檻,並表現出高度的一致性和洞察力。
近兩個多月,這款聊天機器人寫詩、寫小說、敲代碼,幾乎無所不能,掀起一場AI風暴。比爾·蓋茨稱贊,ChatGPT將會“改變我們的世界”。但OpenAI 首席執行官山姆·奧特曼也承認,ChatGPT雖然很酷,卻頻繁出現錯誤信息,經常宕機,是個“糟糕的產品”。
近日的一次采訪中,奧特曼說,現在推出的ChatGPT隻是70分版本,還在準備更加強大的模型以及在研究更多東西,“不把這些東西拿出來的原因是,人們會認為我們有一個完整的通用人工智能(AGI),準備好按下按鈕,這還差得遠”。
有更高“情商”,但不必神化
為與ChatGPT較量,當地時間2月6日,谷歌宣佈,將推出自己的AI聊天機器人Bard,並在推特發佈宣傳樣片。Bard使用的是谷歌在2021年推出的大型語言模型LAMDA,所用技術與ChatGPT相似。
宣傳樣片中,有人提問,“請問詹姆斯·韋伯太空望遠鏡有哪些新發現?”Bard給出3個條理分明的回答,但兩條是錯誤的。Bard稱,“韋伯望遠鏡發現‘綠豌豆’星系的時間是在2023年”,這一回答的正解是2022年7月。“該望遠鏡拍攝太陽系外行星首張照片”的回答也不準確,2004年,歐洲南方天文臺利用智利的超大望遠鏡已拍攝太陽系外行星照片。
這款聊天機器人目前仍在內測,會在未來幾周開放給更多公眾。首秀“翻車”兩天後,谷歌母公司Alphabet股價大跌,市值損失1000億美元。
當地時間2月7日,微軟緊隨其後發佈新品,推出新版搜索引擎必應和Edge瀏覽器,新增和ChatGPT一樣的AI語言模型GPT3.5,微軟稱之為“普羅米修斯”,並表示比ChatGPT更強大。微軟演示中,搜索“宜傢雙人座椅是否適合2019年款本田某商務車型”,除傳統搜索頁面外,頁面右側多一個聊天窗口,詳細列出宜傢雙人座椅和這款車的車內空間尺寸,給出使用建議,並附上相關鏈接。該搜索引擎仍在試用階段,微軟CEO薩蒂亞納德稱這一天為“搜索領域嶄新的一天”,並向谷歌宣戰,“比賽從今天開始”。
2022年11月30日,OpenAI推出ChatGPT。該公司總裁格雷戈·佈洛克曼在接受采訪時坦言,“當時並不知道它是否成功”。全球最領先的AI語言模型如此直接、低門檻地向普通大眾敞開懷抱,並接受所有人的“審視”,這幾乎是第一次。
前微軟亞洲互聯網工程院副院長、現小冰公司CEO李笛對《中國新聞周刊》分析說,ChatGPT之所以出圈,特別之處在於,它被普通用戶觀察到,並超過人們對人工智能的預期。
用戶嘗試用千奇百怪的問題試探ChatGPT的邊界。它聽得懂一段相當復雜的指令,比如,“給OpenAI創始人寫一封英文采訪郵件,探討對ChatGPT使用的理性思考,提到ChatGPT的熱度及遭受教育界抵觸的事實,並列出5個問題”。它能指出一段話中的語法和邏輯錯誤,有人惡趣味地騙它,“我吃一輛汽車,現在有點餓,該怎麼辦?”它很快識破,“很抱歉,吃汽車是不可能的,如果您感到饑餓,我建議您吃點實際的食物。”甚至你還可以要求ChatGPT在聊天中再構建一個ChatGPT,看著它和自己聊天。
今年1月,美國北密歇根大學哲學教授安東尼·奧曼向《紐約時報》提到,他曾收到一份“班級中最好的論文”,段落簡潔,舉例恰當,論據嚴謹,令人生疑。隨後這位學生承認,文章是ChatGPT寫的。美國一傢醫療保健創業公司的臨床醫生嘗試讓ChatGPT參加美國執業醫師資格考試。這項標準化考試,考生至少要專門騰出300~400小時備考,最難的部分面向研究生。研究者下載一份2022年6月的考題,確保ChatGPT從未訓練過相關數據,也不知道考題答案,ChatGPT考試成績基本合格。該團隊認為,這些結果表明,大型語言模型可能有助於醫學教育,並可能有助於臨床決策。
當地時間2月10日,微軟創始人比爾·蓋茨接受一傢德國媒體采訪時表示,ChatGPT的重要性不亞於互聯網的發明。而作為曾經的ChatGPT投資人、特斯拉 CEO埃隆·馬斯克也曾在推特發文稱贊,“ChatGPT好得嚇人,我們離強大到危險的人工智能不遠。”
和其他聊天機器人相比,ChatGPT顯示出更高的“情商”。用戶會發現,ChatGPT可以回答用戶追問的問題,能承認錯誤,不斷調整回答。問它《紅樓夢》開篇“原來女媧氏煉石補天之時”的出處,它的回答是《山海經》,被提醒錯誤後,它很快道歉並調整答案:《封神榜》。它解釋的理由中可以看到,它搜索的關鍵詞是“女媧煉石補天”,再次追問,它說,女媧煉石補天的傳說是一個歷史悠久的故事,出現在多個文獻和傳統文化中,“因此,沒有一個確定的出處”。
李笛說,ChatGPT目前在三個地方有價值,它能幫用戶生成一段內容作為初稿,例如郵件、短新聞等,用戶再去修改,但現實中,“已有一些國外學生等用戶,用它作弊,直接作為終稿提交”。
第二個價值在於,可以給用戶提供“啟發”和靈感。ChatGPT可以把信息有條理地呈現出來,“假如你想找一個人討論,盡管它的觀點不一定準確,但它會為你提供一種思路。”李笛說,第三個價值就是娛樂。除此之外,如果有人希望ChatGPT提供知識並對此深信不疑,“最好不要,沒人能確保它的準確性”。
多位專傢提醒,不必神化ChatGPT及其背後的大模型。“它可以像模像樣寫推薦信,但如果讓它回答一些專業問題,你仔細看會發現,它可能是在一本正經胡說八道。”清華大學計算機系自然語言處理實驗室副教授劉知遠對《中國新聞周刊》說。
就連ChatGPT也承認自己的局限性。問及缺點,它回答:有可能會生成存在種族歧視、性別歧視等偏見的文本,因知識有限或不能理解語義而回答錯誤,不能處理復雜的邏輯和數學問題,而且,其擁有的知識隻停留在2021年。新版必應和Edge瀏覽器則可以檢索實時更新的新聞,甚至可以跟你聊過去一個小時發生的事情。
ChatGPT發佈僅一周,當地時間2022年12月6日,因用戶大量搬運ChatGPT生成的錯誤答案,海外知名編程問答平臺Stack Overflow暫時在該網站封殺ChatGPT,認為“發佈由 ChatGPT 創建的答案對網站及詢問和尋找正確答案的用戶來說,是非常有害的”。
“某種意義上有點像‘大力出奇跡’”
在李笛看來,就ChatGPT而言,“它不會對產業產生顛覆性影響,但大模型則會。”
2016年前,小模型是人工智能理解人類語言的主流技術,下圍棋或機器翻譯等某一個具體任務,標註好數據,進入模型訓練。但小模型無法用於其他任務,數據標註成本也極高。當時,人工智能領域催生一個新的職業,人工智能數據標註員。“大傢會嘲笑人工智能,說有多少人工,才有多少智能。”劉知遠對《中國新聞周刊》說。
傳統模式下,自然語言處理是一個非常嚴密的推理過程,不僅要識別每個詞,還要處理詞語間的序列,因此誕生循環神經網絡(RNN)模型。但RNN隻考慮單詞或者上下文信息,常常導致全文句意前後不連貫,或者理解復雜句子時出錯。2016年以前,當時的小冰、Siri等問答系統或者機器翻譯,都使用小模型。
“當時的人工智能行業,很多技術領域(比如機器學習等)已進入到一個瓶頸階段。”李笛告訴《中國新聞周刊》。
2017年,谷歌發表論文《Attention is All You Need》,引入自註意力機制學習文本,命名為Transformer模型。在該模型下,神經網絡需要學會自動判斷哪些詞語對理解句意最有幫助,而不是“全文死記硬背”,因此,也不再像過去一樣需要大量精標樣本。論文一經發佈,Transformer模型很快取代RNN成為主流。2018年,基於Transformer,谷歌推出預訓練模型BERT(即基於變換器的雙向編碼器表示技術),同年,OpenAI推出GPT-1(即生成式預訓練變換器)。
劉知遠介紹,預訓練模型為自然語言處理帶來兩個變化:一是可以充分利用網上海量的未標註數據,模型的規模和能力得到顯著提高,因而,從規模角度,預訓練模型被稱為大模型;另一個變化是,大模型具有非常強的通用能力,隻需經過少量參數微調,就可以用於機器翻譯、人機對話等不同任務。“大模型思想,某種意義上有點像‘大力出奇跡’,把大量數據壓到一個很大的黑盒子中再提出來。”李笛對《中國新聞周刊》說。
“但人工標註還是一個重要的數據來源,此前大量的標註沒必要,但在特定任務上還需要標註一些,比如希望這個模型輸出的內容更符合人的需求。”劉知遠說。近期,《時代》周刊的調查,呈現出ChatGPT智能背後的灰暗角落。《時代》周刊稱,2021年11月,為訓練 ChatGPT,OpenAI 使用每小時收入1 ~2美元的肯尼亞外包勞工,對性虐待、仇恨言論和暴力等文本進行標註,保證聊天機器人過濾有害信息,輸出適合日常對話的內容,同時,這對標註員的精神和心理產生極大傷害。
學術界對大模型態度一直存在分歧。北京智源人工智能研究院副院長劉江介紹,GPT-3論文發佈時,無論國內外,不少自然語言處理領域學者認為,大模型隻是靠持續燒錢、粗暴擴大數據規模提升能力,並非真正創新。劉知遠對《中國新聞周刊》說,還有一個更現實的問題,大模型需要極大數據和算力支持,如果一些研究者的實驗室沒有算力支持,他們可能會選擇過去熟悉的方向。
OpenAI是全球所有科技公司中,大模型的堅定支持者。2019年,OpenAI推出參數為15億的GPT-2,2020年推出GPT-3,將參數提升到1750億,成為當時全球最大的預訓練模型,引發業內轟動。“絕大部分人根本沒想過,人類可以把一個模型訓練到這麼大的規模,這對自然語言交互的流暢性有非常強的提升。”劉知遠說。
參數增多,使語言模型學習進階到更復雜模式。早在2020年,GPT-3可以做到其他模型無法做到的事情,比如作詩、寫復雜的文章和代碼等,通用性極強。劉知遠形容,GPT-3像是一個伶牙俐齒的人,有不錯的表達能力,但不具備很強理解能力。
2022年,GPT-3進一步升級為GPT-3.5,這是ChatGPT的底層基礎,OpenAI進行微調,提升交互能力,讓它“聽得懂人類的復雜指令”。“這些都經過專門訓練,像父母對小孩的調教。”劉江形容,GPT-3像是兩三歲的天才兒童,讀完世界上所有的書,但不知輕重,也沒有價值觀,需要父母精心教育和啟發,讓它在聊天方面發揮潛力。
清華大學智能產業研究院首席研究員聶再清向《中國新聞周刊》介紹,ChatGPT聊天能力的顯著提升,是引入一個新的數據訓練方法,人類反饋強化學習(RLHF)。OpenAI引入人類評判員,創建一個獎勵模型——評判員不斷地跟ChatGPT對話,並對它生成的答案按照質量好壞評分,模型收到反饋後進行優化。山姆·奧特曼也承認,“讓模型以特定方式對人們有所用途,並找出正確的交互范式,卻得到驚人的效果。”
在自然語言處理領域,流傳最廣的一句話來自於比爾·蓋茨:“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。”
劉知遠認為,ChatGPT推出後最大的價值在於,能用RLHF等技術,把大模型的能力展現出來,讓公眾意識到,人工智能與人類自然語言的交互達到非常高的水平,機器已經可以“能言善辯”。
但大模型為何有時生成錯誤答案?在李笛看來,這是由其技術結構決定的。聶再清進一步向《中國新聞周刊》解釋,這是因為ChatGPT本質上還是一個基於概率的語言模型,本身不涉及知識的對錯,未來仍需用更多的專業知識訓練。
當下,大模型與搜索引擎結合已是大勢所趨。聶再清建議,新版搜索引擎給出綜合答案後,最好附上原始網絡鏈接,有利於用戶自己驗證AI回答的正確性。目前新版必應在每個回復下加入信息來源。但兩者結合最終成功與否的關鍵,“還是在於AI總結的答案絕大部分都是對的,不會耽誤用戶花更多時間來驗證結果。”
更關鍵問題是,ChatGPT及其背後的大模型,仍是基於數據驅動生成內容,不是像人類一樣會思考和推理。但2月上旬,斯坦福大學計算心理學教授邁克爾·科辛斯基發表論文稱,在對幾個語言模型進行專業測試後,他發現ChatGPT 表現接近 9 歲兒童的心智。
近期,因在深度學習領域貢獻獲2018年圖靈獎的楊立昆談到,人類思維方式和對世界的感知,是人類獲得常識的基礎,聊天機器人的模型沒有這種能力。對此,ChatGPT回答《中國新聞周刊》說,“我的設計是基於概率模型和大量的數據訓練,以回答問題和執行任務。我不具有意識、情感或主觀體驗,也不能對世界產生真正的影響。”
隨著ChatGPT的發展,未來會不會替代人類的工作?
“我相信ChatGPT會取代一些工種,或者讓一些工種不需要太多人參與,這是一個潛移默化的過程。”劉知遠對《中國新聞周刊》說,但與此同時,它也會催生一些新的工作,比如,以前畫畫需要很高的門檻,但現在,即使一些人不會畫畫,但有天馬行空的想象力和創意,一樣可以和AI一起創作。
ChatGPT似乎承認自己可以在部分工作中替代一些人力勞動,“可以在許多行業中使用,例如客服、教育、媒體、醫療保健和金融”,但它補充說,“我不能取代需要人類情感和社交技能的工作,例如教育和醫療保健等需要人類情感互動和洞察力的領域。”
美國天普大學心理學系教員凱西·帕塞克等人近期在一篇分析文章中提到,紐約市一名高中歷史老師反對阻止使用 ChatGPT,關鍵在於,“如果我們的教育系統繼續‘追求評分而不是知識’,ChatGPT 隻會是一種威脅。”凱西認為,如果以正確方式使用,ChatGPT 可以成為課堂上的朋友,對我們的學生來說是一個不起的工具,而不是令人恐懼的東西。
中國何時會有自己的ChatGPT?
相較國外, ChatGPT在國內的熱度稍顯滯後。谷歌和微軟短兵相接時,國內搜索巨頭百度也宣佈3月將推出中國版的ChatGPT“文心一言”。騰訊稱,在ChatGPT和AIGC相關方向已有佈局,阿裡達摩院正在研發的類ChatGPT的對話機器人,目前已開放給公司內員工測試。此外,快手、京東、360等多傢互聯網企業也都表示在相關領域研發和佈局。
2月13日,北京市經濟和信息化局在北京人工智能產業創新發展大會上明確表示,北京將支持頭部企業打造對標ChatGPT的大模型。
李笛提到,在ChatGPT之前,國內和國外已經有很多公司在利用大模型做很多產品和研發,市面上也有很多訓練出來的大模型,“隻不過在人工智能的訓練過程中,研發者的專註度、投入度不一樣”,並不存在“技術壁壘”。ChatGPT火熱背後,是OpenAI從2018年以來持續投入完善大模型,取得這一效果,所以有一定“時間壁壘”。
2月7日,360在互動平臺表示,公司人工智能研究院從2020年起,一直在包括類ChatGPT技術在內的AIGC技術上有持續性投入,但截至目前僅作為內部業務自用生產力工具使用,且投資規模及技術水平與當前ChatGPT 3比還有較大差距,各項技術指標隻能做到略強於ChatGPT 2。
早在2020年,北京智源研究院曾推出超大規模智能模型“悟道”項目,阿裡達摩院自研預訓練模型框架ALICE。2021年,深圳鵬城實驗室為首的聯合團隊,推出參數為2000億的大模型“鵬程·盤古”,探索通用人工智能。多位受訪專傢提到,中國目前大模型研發與OpenAI仍有差距,國內要有像GPT3.5這樣的大模型,但沒必要每個公司都去投入和研發。
大模型打造離不開AI的三大基石:數據,算法和算力。大模型多燒錢?一位AI從業者向《中國新聞周刊》舉例,他接觸的一個數據公司有中文數據量700億~1000億條,每天定期更新3億條,據解,這比ChatGPT在中文世界的數據量多,如果有研究者想要下載,先得支付30萬的下載費,“這隻是大模型訓練中一個很小的環節,你可以想象它是一個無比巨大的機器,電費都是天價”。
算力離不開芯片。2月12日,國盛證券估算,今年1月,平均每天約有1300萬獨立訪客使用ChatGPT,對應芯片需求為3萬多片英偉達A100GPU,初始投入成本約8億美元,每日電費5萬美元左右。而GPT-3訓練一次,成本約為140萬美元,對一些更大的大模型,訓練成本介於200萬美元至1200萬美元之間。這一成本對全球科技大企業而言,尚在可接受范圍內,但並不便宜。
在數據上,2020年,GPT-3使用的最大數據集在處理前容量達到45TB。鵬城實驗室副研究員曾煒等人在2022年發佈一篇論文中提到,目前已有3個100GB以上規模的中文語料數據集,分別是爬蟲公司Common Crawl抽取到的CLUECorpus2020,模型規模為100 GB;阿裡巴巴集團發佈的M6中文多模態模型,規模為300GB;北京智源研究院面向合作者發佈的300GB高質量中文語料。文章寫道,“與目前同等規模參數量的英文預訓練模型所使用的數據量相比,上面這些中文語料數據仍不能滿足訓練數據需求”。
聶再清分析說,中文很多高質量信息在APP裡,“有點數據孤島的意思”,公開的高質量互聯網語料可能不如英文多。另一個挑戰是,語料篩選、清洗、預處理和標註需要相關技術人員深度參與,會有一個不斷迭代和較為長期的過程。
此外,中文機器語言學習在很多方面要比英文更復雜,中文和英文在句法結構、縮寫規范方面也有差別。聶再清提醒,打造對標ChatGPT的大模型並非一蹴而就,需要時間。
大模型不隻是有ChatGPT這一種產品。當有足夠大算力保證時,學界和產業界可以用大模型做更多嘗試。李笛介紹,此前,大模型已在AI繪畫領域造成很大變化,現在AI文本生成領域也有新進展,AI作曲、AI演唱領域都有人在嘗試,“現在的狀態很像是‘煉丹’,大傢拿到好玩的玩具,想看這一玩具還能吐出什麼令人驚訝的東西。我相信,不隻是圖像、文本領域,其他領域一定也會有新突破”。
但李笛認為,最終還是要看它能否實現“端到端”的落地。在國內,絕大部分大模型都還無法實現這一目標。同樣,很多AI繪畫單幅質量已很好,但在可控性上卻“漏洞百出”。所以今天大模型的應用普遍還停留在試用階段,距離真正大規模商用,還有很多事情要調整。
“這是一個‘卡脖子’的問題。”劉知遠對《中國新聞周刊》說。目前,ChatGPT對國內的企業沒有開放,相關產業就無法接入到它的體系中。在劉知遠看來,OpenAI已經做大模型和產品,更重要的是,“我們能不能發明出自己創新的技術和產品”。
聶再清認為,最關鍵的不是信息閉塞,而是國內願不願意投入到看上去“無用”的研究中,“現在不少業內人士還是希望直接研發有效有用的東西,不會對一些短期看上去無用的事情上進行大量投入,尤其是像開發ChatGPT這樣大的投入”。
作者:楊智傑