谷歌升級Gemini 1.5 Pro AI可以聽音頻


4月10日消息,谷歌升級大語言模型Gemini1.5Pro,為其配備“耳朵”,使其能夠監聽並分析上傳的音頻文件,從財報電話會議或視頻音頻中提取關鍵信息,無需轉為書面材料。在美國時間周二舉辦的GoogleNext大會上,谷歌宣佈,通過其人工智能應用開發平臺VertexAI,將Gemini1.5Pro首次對外開放。該模型最初於今年2月亮相。

Gemini 1.5 Pro被視為Gemini傢族中的“中量級”(middle-weight)模型,其性能已經超越最大規模、最強大的Gemini Ultra。谷歌表示,Gemini 1.5 Pro能夠理解復雜指令,而且使用時無需對模型進行特別調整。

google-gemini-2.webp

需要指出的是,不通過Vertex AI的用戶無法體驗到Gemini 1.5 Pro的全部功能。目前,大眾主要通過Gemini聊天機器人與Gemini大語言模型互動。盡管GeminiUltra為Gemini Advanced聊天機器人提供強大支持,能理解較長的指令,但在反應速度上不及Gemini 1.5 Pro。

除Gemini 1.5 Pro的更新,谷歌還對其它大型人工智能模型進行升級。特別是作為文本轉圖像生成模型的Imagen 2,它增強Gemini的圖像生成能力。通過引入圖像外延(Outpainting)和內填(Inpainting)功能,用戶現在能更靈活地對圖像的元素進行添加或刪除。

google-gemini-1.5-pro-tokens.webp

為確保Imagen模型生成的圖片版權和來源可追溯,谷歌為所有生成圖片加入SynthID數字水印技術。這種創新技術通過幾乎不可見的水印明確標識圖片來源,可以通過專用工具進行檢測。

Imagen模型的許多新特性,如圖像外延和內填技術,已被其他文本轉圖像模型采用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,這些技術也被廣泛應用於消費電子產品中,如三星Galaxy手機。

除圖像生成的創新外,谷歌還公開展示一種結合人工智能生成回答和谷歌搜索結果的方法,旨在為用戶提供更實時、更準確的信息。然而,大語言模型生成的回答並非總是精準無誤,有時可能會誤導用戶。因此,谷歌對Gemini模型設置一些限制,比如禁止回答與2024年美國大選相關的問題。

此前,Gemini模型因在生成歷史人物描述時出現不準確而受到批評。


相關推薦

2024-02-16

剛剛,我們經歷LLM劃時代的一夜。Google又在深夜發炸彈,GeminiUltra發佈還沒幾天,Gemini1.5就來。卯足勁和OpenAI微軟一較高下的Google,開始進入高產模式。自傢最強的Gemini1.0Ultra才發佈沒幾天,Google又放大招。就在剛剛,GoogleDeepMind

2023-12-07

時代變?迄今為止規模最大,能力最強的Google大模型來。當地時間12月6日,GoogleCEO桑達爾・皮查伊官宣Gemini1.0版正式上線。這次發佈的 Gemini 大模型是原生多模態大模型現在,Google的類 ChatGPT 應用 Bard 已經升級到 Gemini Pro 版本,

2024-08-10

科技8月9日消息,劉作虎在社交平臺上宣佈,OPPO手機接入谷歌AI大模型Gemini。劉作虎表示,我們與谷歌密切合作,取得令人難以置信的AI成果,我們致力於讓每個人都能擁有AI手機,我們正在不懈努力地實現這一目標。據解,在Goo

2024-02-18

Google下一代大模型,無預警降臨。Gemini1.5,除性能顯著增強,還在長上下文理解方面取得突破,甚至能僅靠提示詞學會一門訓練數據中沒有的新語言。此時距離去年12月Gemini1.0發佈,還不到3個月。現在僅僅中杯1.5 Pro版就能越級

2023-12-07

傳說中的Gemini,終於在今天深夜上線!‘原生多模態’架構,是Google的史詩級創舉,Gemini也如願在多個領域超越GPT-4。這場仗,Google必不能輸。Google的復仇大殺器Gemini,深夜忽然上線!被ChatGPT壓著打整整一年,Google選擇在12月的

2023-02-23

梅賽德斯奔馳周三宣佈,與谷歌在導航方面展開合作,將為每輛配備自動駕駛傳感器的汽車提供超級計算機般的性能。奔馳也將成為第一傢擁有自己定制的谷歌地圖的汽車制造商。此外,梅賽德斯奔馳還表示,同意與自動駕駛軟

2024-03-04

Google傳奇創始人,千億美元身價的佈林,周末現身AI黑客馬拉松現場。他像個“科技宅”一樣,現場分享關於修復Gemini大模型bug的問題,一下子引起熱議。在將近40分鐘的演講中,佈林談到Gemini開發內幕、AGI、AI對社會影響的看法

2024-02-27

谷歌AI模型Gemini生成的中世紀英格蘭國王圖片也有黑人,生成的1943年德國士兵有亞裔和非裔。谷歌稱,在一些歷史圖像生成的描述中提供不準確的信息,問題部分源於,該模型隨著時間推移變得“比我們預期的要謹慎得多”,將

2023-12-07

谷歌憋許久的大招,雙子座Gemini大模型終於發佈!其中一圖一視頻最引人註目:一圖,MMLU多任務語言理解數據集測試,GeminiUltra不光超越GPT-4,甚至超越人類專傢。AI實時對人類的塗鴉和手勢動作給出評論和吐槽,流暢還很幽默

2024-02-10

引領人工智能先河、卻因為謹慎錯過這一波大模型先機的Google——正在變得大膽和開放,在產品和生態上迎頭趕上。北京時間2月8日21點,Google宣佈旗下最強大多模態模型Gemini(包括最大最強的Ultra、中間態的Pro、最小且匹配端側

2024-03-09

X一小夥分享,為測試Gemini1.5Pro,自己在編寫一個網頁的代碼時故意留3個bug,並分別錄制網頁bug視頻。接著把代碼庫打包成文件連同視頻一起輸給Gemini1.5Pro,提示它找到並修復代碼中的所有bug,且要提供一個簡要指南以及所做更

2024-02-22

ogle毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯網設備、移動

2024-02-24

Gemini好像終於被玩壞。去年年底,GoogleGemini震撼業界,它是Google“最大、最有能力和最通用”的AI系統,號稱第一個原生多模態大模型,能力超越GPT-4,也被認為是Google反擊微軟和OpenAI的強大工具。對此,在 2 月 8 日,Google還把

2024-06-14

進步。與此同時,業界對AI手機的存儲需求正迅速增長,谷歌最新推出的Pixel 8系列中,僅Pixel 8 Pro支持運行AI大模型Gemini,原因在於其配備12GB DRAM,而基礎款的8GB DRAM可能無法滿足需求。據IDC預測,16GB RAM將成為新一代AI手機的標