蘋果開發出新款AI:能“看懂”屏幕上內容並用語音回復


4月2日消息,蘋果公司的研究團隊最近發表一篇論文,宣佈他們成功開發出一款創新的人工智能系統。這個系統能夠準確地理解屏幕上模糊的內容及其相關對話和背景環境,進而實現與語音助手更加自然的互動。

59161-120752-IMG_5136-xl.jpg

這個系統被命名為ReALM(Reference Resolution As Language Modeling,即以語言建模為基礎的參考解析),它通過大語言模型的運用,將理解屏幕視覺元素指向的復雜任務轉化為一個純粹的語言問題。這一轉換使得ReALM在性能上相較於現有技術有顯著的提升。

蘋果研究團隊強調:“讓對話助手能夠理解上下文,包括相關的內容指向,非常關鍵。能讓用戶根據他們所看到的屏幕內容進行提問,是確保真正實現語音操作體驗的重要一步。”

增強對話助手的能力

ReALM的一大創新在於它能夠重新構建屏幕內容,即通過分析屏幕上的信息及其位置信息來生成文本表示,這一點對捕捉視覺佈局至關重要。研究人員展示這種方法與專為內容指向調整的語言模型結合起來,能在執行相關任務時超越GPT-4的性能。

研究人員表示:“我們對現有系統進行顯著改進,在處理多種類型的內容指向時均展現出卓越性能。我們的最小模型就實現超過5%的性能提升,而大型模型的表現則明顯超過GPT-4。”

實際應用與局限性

這項研究凸顯專註於語言模型在處理如內容指向解析等任務上的巨大潛力。由於響應時間或計算資源的限制,大型端到端模型往往難以實施。通過這項創新性研究,蘋果展現其持續投入,使Siri等產品在對話和理解上下文方面更加出色。

盡管如此,研究人員也指出,依靠自動化解析屏幕內容仍然面臨挑戰。在處理更復雜的視覺內容,比如區分多個相似圖像時,可能需要結合計算機視覺和多模態技術。

努力縮小與AI競爭對手差距

雖然在人工智能領域蘋果曾稍顯落後,但它正在默默取得顯著進展。從融合視覺與語言的多模態模型,到開發AI驅動的動畫工具,再到構建高性能的專業AI技術,蘋果的研究實驗室持續實現技術突破。

面對谷歌、微軟、亞馬遜和OpenAI等公司的激烈競爭——這些公司已在搜索、辦公軟件、雲服務等領域推出先進的AI產品——作為一個以保密聞名的科技巨頭,蘋果正努力不落人後。

長期以來,蘋果更多在創新領域扮演跟隨者而不是領先者的角色,現在正面臨著一個由人工智能快速改變的市場。在6月舉辦的全球開發者大會上,蘋果預計將推出新的大語言模型框架、“AppleGPT”聊天機器人及其生態系統中的其他AI功能。

“我們很高興今年晚些時候分享我們在人工智能方面的工作進展,”首席執行官蒂姆·庫克(TimCook)最近在一次盈利電話會議上暗示。盡管蘋果向來低調,但其在AI領域的廣泛努力已經引起業界的廣泛關註。

然而,在日益激烈的人工智能領域競爭中,蘋果的相對滯後使其處於不利地位。但憑借其雄厚的資金實力、品牌忠誠度、一流的工程師團隊和緊密整合的產品線,蘋果仍有機會扭轉局面。(小小)


相關推薦

2024-04-02

快科技4月2日消息,據媒體報道,蘋果公司近日宣佈,成功研發出一款前沿的人工智能系統ReALM(Reference Resolution As Language Modeling,即基於語言建模的參考解析)。據悉,該系統具備卓越能力,能夠精準解析屏幕上模糊的內容,同

2024-03-23

請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個方面。

2024-04-08

音回復),能夠保存並下載交流的歷史記錄,還加入不少開發者選項。同時,在界面右側language下方的對話框裡,也可以“設定”EVI的性格,甚至可以是“充滿渴望的電冰箱”或者“容易嫉妒的室內綠植”這樣的幻想設定。02量

2024-05-31

5月30日晚19:00,vivo S19系列全新發佈,包含S19、S19 Pro兩個版本,一同亮相的還有智能穿戴新品vivo WATCH GT,接下來我們就用一篇文章來快速總結這次的新品賣點、售價信息。新品售價及開售日期:vivo S19即日起開啟預售,6月7日正

2023-11-11

示屏,直接將手掌變成一個迷你屏幕。Humane 是一傢由前蘋果設計師成立的AI初創公司,最新估值為 8.5 億美元,Sam Altman 是它最大的外部股東,除此之外,背後還有微軟、Salesforce 等巨頭支持者。幾天前,OpenAI 開發者大會讓整個

2024-04-15

新的姿態橫空出世,加上“OpenAI首席執行官SamAltman投資、蘋果前員工夫妻聯手、被《時代》雜志評為‘2023年度發明’”等眾多名頭,在科技圈掀起熱烈討論,並被寄予“未來AI設備雛形”的厚望。然而,這款備受關註的AI設備一

2024-06-14

蘋果CEO庫克對國行Vision Pro持信心。他表示,上海的蘋果開發實驗室接待許多中國開發者,他們已經適配騰訊視頻、微博等多款中國App。消費者可以在蘋果零售店體驗到這些應用。庫克還提到,目前已有超過2000款原生Vision Pro應用

2024-02-16

據彭博社報道,蘋果公司正在開發Xcode的升級版本,其中將包括一個用於生成代碼的人工智能工具。該人工智能工具將類似於微軟的GitHubCopilot,可以根據自然語言請求生成代碼,並將代碼從一種編程語言轉換為另一種編程語言。

2022-06-24

在今年的WWDC22蘋果開發者大會上,蘋果公司罕見地對車載映射系統CarPlay進行瞭較大幅度的升級,讓CarPlay不再是iOS系統的簡單投射,而是要讓iOS充滿整個車內屏幕中,這應該也是CarPlay自2014年以來最大的一次升級。蘋果的這一動

2024-05-12

始,矽谷科技巨頭將開啟新一輪的AI大戰。OpenAI、Google、蘋果都將押註AI助手,並發佈一系列重磅更新,你準備好?新一輪AI大戰,即將拉開序幕!下周一,OpenAI將開啟線上直播,官宣GPT-4升級,甚至還有一個超級“AI助手”等著

2023-02-05

時,均有個別金額出現語音播報錯誤。據悉,旁白功能是蘋果打造的一種基於手勢的屏幕閱讀器,可讓你在無法看見屏幕的情況下使用iPhone。旁白會對屏幕內容進行音頻描述,從電池電量、來電信息到手指所在的App,你還可以根

2023-03-09

蒂亞·納德拉最近在接受英國《金融時報》采訪時表示,蘋果的 Siri、亞馬遜的 Alexa,微軟自傢的 Cortana(中文名:小娜)以及公認拔尖的 Google Assistant,這些語音助手有一個算一個:都笨得跟石頭一樣。納德拉和 Cortana,圖/微軟2

2023-11-22

篇文章,宣佈用戶現在可以點擊耳機圖標,在移動應用中用語音與ChatGPT對話,並獲得聲音回應。今年 9 月,OpenAI 首次推出用語音和圖像提示 ChatGPT 的功能,但該功能隻對付費用戶開放。該功能發佈之際,OpenAI 的員工正在為其首

2024-03-30

語音。由於合成語音可能會被濫用,公司隻在小范圍內與開發人員分享該模型,未來可能不會廣泛推出這一功能。新聞稿寫道,兒童教育技術公司Age of Learning正在使用這個模型來生成一些預先編寫好的內容,並且還結合GPT-4 創建