Google計劃建立巨型人工智能語言模型 支持全球1000種最常用的語言


Google宣佈一個雄心勃勃的新項目,開發一個支持世界上"1000種最常用語言"的單一AI語言模型。作為實現這一目標的第一步,該公司公佈一個經過400多種語言訓練的人工智能模型,它將其描述為"今天在一個語音模型中看到的最大的語言覆蓋范圍"。

akrales_180508_2553_0015.webp

語言和人工智能可以說一直是Google產品的核心,但最近機器學習的進步--特別是強大的、多功能的"大型語言模型"或LLM的開發--使這些領域得到新的重視。

Google已經開始將這些語言模型整合到Google搜索等產品中。但語言模型有許多缺陷,包括傾向於轉述有害的社會偏見,如種族主義和仇外心理,以及無法以人類的敏感性來解析語言。在自己的研究人員發表概述這些問題的論文後,Google自己也臭名昭著地解雇他們。

不過,這些模型能夠完成許多任務,從語言生成(如OpenAI的GPT-3)到翻譯(見Meta的"不遺漏語言"工作)。Google的"1000種語言計劃"並不專註於任何特定的功能,而是要創建一個具有世界上各種語言的巨大知識廣度的單一系統。

Google人工智能研究副總裁Zoubin Ghahramani說,該公司認為,創建一個如此規模的模型將使其更容易將各種人工智能功能帶到在線空間和人工智能訓練數據集中表現不佳的語言(也被稱為"低資源語言")。

"語言就像生物體,它們是相互演化而來的,它們有某些相似之處。通過讓一個單一的模型接觸並訓練許多不同的語言,我們在低資源語言上得到更好的表現,"Ghahramani說。"我們達到1000種語言的方法不是通過建立1000種不同的模型。語言就像生物體,它們是相互進化的,它們有某些相似之處。而且,當我們將一種新語言的數據納入我們的1000種語言模型,並獲得將[它所學到的東西]從一種高資源語言轉化為低資源語言的能力時,我們可以在我們所謂的零點學習中找到一些相當驚人的進展。"

過去的研究顯示這種方法的有效性,而Google計劃中的模型的規模可以提供比過去的工作更多的收益。這種大規模的項目已經成為科技公司主導人工智能研究雄心的典型,並利用這些公司在獲得大量計算能力和訓練數據方面的獨特優勢。一個類似的項目是Facebook母公司Meta正在嘗試建立一個"通用語音翻譯器"。

Google表示,為支持1000種語言模型的工作,它將資助收集低資源語言的數據,包括音頻記錄和書面文本。

該公司表示,它沒有直接計劃在哪裡應用這個模型的功能--隻是預計它將在Google的產品中具有一系列用途,從Google翻譯到YouTube字幕等等。

"同樣的語言模型可以將機器人的命令變成代碼;它可以解決數學問題;它也可以進行翻譯。關於大型語言模型和一般的語言研究,真正有趣的事情之一是它們可以做很多很多不同的任務,"Ghahramani說。"語言模型真正有趣的地方在於它們正在成為大量知識的儲存庫,通過以不同的方式探測它們,你可以獲得不同的有用功能。"

Google在一個新的人工智能產品展示會上宣佈1000種語言模型。該公司還分享關於文本到視頻模型的新研究,一個名為Wordcraft的人工智能寫作助手原型,以及對其人工智能測試廚房應用程序的更新,該應用程序允許用戶有限地訪問正在開發的人工智能模型,如其文本到圖像模型Imagen。


相關推薦

2023-03-07

當微軟和Google為誰的人工智能聊天機器人更好而使出渾身解數時,我們不難發現這並不是機器學習和語言模型的唯一用途。除傳聞中計劃在今年的年度GoogleI/O活動中展示20多種由人工智能驅動的產品外,Google正在朝著建立一個支

2022-07-04

如今,一些看起來非常像人類的句子實際上是由人工智能系統生成的,這些系統已經在大量的人類文本中進行訓練。人們習慣於假定流暢的語言來自於有思想、有感覺的人類,以至於相反的證據可能難以理解,並且認為如果一個

2022-12-21

上宣佈的,同時Google還努力創建"一個單一的、統一的人工智能模型,將能夠處理超過100種印度語言的語音和文本"。這並不是Google為支持多語言用戶所采取的第一步。例如,Gboard已經支持印地英語,用戶可以在設備上配置

2023-02-17

羅馬不是一天建成的。當人工智能對話工具ChatGPT一夜之間成為頂流,在略顯沉悶的科技界如閃電般發出炫目光芒後,它似乎點亮指引投資界方向的明燈,一些商界人士的內心開始“騷動”。的確,這個成績是史無前例的。ChatGPT

2022-09-25

有一個靠譜的語音識別系統能聽懂我的口音。前任特斯拉人工智能總監Andrej Karpathy甚至轉發評論:OpenAI正處於最好的狀態中。話不多說,讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。逼近人類水平的語音識別系統

2023-03-28

人Sam Altman和馬斯克都曾多次在公開場合表達對AI大模型和人工智能的擔憂,表示應該更謹慎地對待大模型的市場化。目前由Google投資的,能夠對標OpenAI的另一傢AI初創公司Anthropic其實就是因為這樣的理念不同,而從OpenAI出走並自

2024-04-08

失望、堅定,還有一點點渴望說: “你知道,我可能是人工智能,但我不喜歡你這種語氣,我的朋友。 如果你想激怒我,恐怕憤怒並不在我的能力范圍之內。 不過,隻要我們能保持建設性,我很樂意進行激烈的辯論。 ”在服

2023-04-18

,OpenAI的聊天機器人ChatGPT可謂是功能強大,引起人們對人工智能的極大興趣和投資。但該公司的CEO薩姆·奧爾特曼(SamAltman)認為,現有研究策略已經失效,未來的AI進步需要新的思路。近年來,OpenAI通過將現有的機器學習算法擴

2022-09-22

強大的語音識別系統置於其軟件和服務的核心地位。但在人工智能和機器學習領域,語音識別仍是一個頗具挑戰性的話題。好消息是,今日OpenAI隆重地宣佈Whisper的開源——可知作為一套自動語音識別系統,官方宣稱它能夠實現

2023-04-02

級和高效版本的LAMDA模型上,這是一個專註於提供對話的人工智能語言模型。在某些方面,我覺得我們把一輛改裝過的思域汽車放在與更強大的汽車的比賽中。相比之下,PaLM模型規模更大,Bard在處理常識推理和編程問題等任務

2023-02-07

面對氣勢洶洶的OpenAIChatGPT,Google真的急!Google母公司AlphabetCEO皮查伊今日凌晨發文,正式揭曉其AI旅程的“NextStep”———Bard,一款與ChatGPT相似的對話式AI服務。值得註意的是,受限於數據集,ChatGPT無法回答2021年後的信息。而Go

2024-03-09

印度政府已經批準一項重大投資,用於建立當地的人工智能生態系統。公共補貼將用於創建強大的"計算基礎設施",新的語言模型將增強聊天機器人的能力,以滿足印度一國內多語種的需求。印度總理納倫德

2023-02-06

用於科研的模型。’‘這是一個受過人類科學知識訓練的人工智能。您可以將它用作一個新界面,來訪問和操作我們對宇宙的知識。’這當然就給自己埋大雷。雖然從技術層面來看,ChatGPT的確沒有太多創新,但是從產品運營的

2023-03-20

斯坦福大學的Alpaca人工智能在許多任務上的表現與驚人的ChatGPT相似--但它建立在一個開源的語言模型上,訓練成本不到600美元。看來這些神一樣的人工智能已經便宜得嚇人,而且很容易復制。六個月前,隻有研究人員和博學者在