論文一窺蘋果AI大計 Siri這回要變厲害


5月7日消息,盡管外界普遍認為蘋果在AI領域的動作較慢,實際上,蘋果一直在悄然籌備,並等待合適時機發力。通過分析研究論文,美媒可以看出蘋果的AI策略逐漸明朗化。蘋果正致力於優化AI模型,使之更加精簡和高效。通過在設備上直接處理數據並改進存儲方式,蘋果已顯著加快處理速度並提高模型效率。

此外,蘋果還開發名為EELBERT的系統,該系統能顯著減小模型的體積,同時盡量保持性能盡量不受影響。

在提升用戶體驗方面,蘋果特別關註如何改進Siri,使其更智能地處理語音指令和查詢。研究團隊正在開發一種新技術,使Siri無需喚醒詞即可激活,同時優化對模糊查詢的處理。

此外蘋果也意識到AI在健康監測、創意設計和音樂編輯等多個領域的應用潛力。

蘋果最雄心勃勃的AI項目之一則是多模態大語言模型Ferret。它能夠根據用戶的指令專註並理解指定的對象及其周圍環境。Ferret的潛力不止於此,它甚至能解析屏幕上的內容。這一技術可能徹底改變人們使用智能手機和Vision Pro的方式。

以下是翻譯內容:

在人工智能領域的競爭中,常有人誤以為蘋果起步較晚。自2022年底ChatGPT風靡全球以來,多數競爭對手都在加速追趕。雖然蘋果偶爾參與討論人工智能,並推出一些相關技術的產品,但外界普遍感覺蘋果似乎僅是試探,而非全力以赴。

然而,近幾個月的傳聞和報道揭示蘋果的戰略佈局。實際上,蘋果一直在等待合適的時機。最近幾周有消息稱,蘋果正在與OpenAI和Google等巨頭探討合作,旨在增強其人工智能功能,並積極開發自己的人工智能模型,名為Ajax。

通過仔細研讀蘋果發佈的人工智能研究論文,可以感知到該公司的AI策略日漸成型。當然,我們應認識到,從研究到產品的轉化是一個復雜且充滿不確定性的過程。但隨著蘋果預計在今年六月的全球開發者大會(WWDC)上展示其人工智能技術,我們將至少能一窺這傢科技巨頭的遠大藍圖,以及其如何將這些技術融入日常生活。

更小、更高效的模型

我們共同期待的無疑是更優秀的Siri體驗!更出色的Siri即將到來!蘋果和全球科技界的許多研究都基於同一個前提:大語言模型(LLM)將立即提升虛擬助手的智能。對蘋果來說,提升Siri意味著必須迅速部署這些模型,並確保它們普遍可用以便為用戶提供服務。

最新報道指出,在iOS 18中,蘋果計劃讓所有人工智能功能都能在設備上完全離線運行。即便擁有龐大的數據中心網絡和數千個頂尖GPU,構建一個功能全面且出色的模型也並非易事,而在智能手機這樣有限的空間內實現這一目標,更是難上加難。因此,蘋果需要展示其非凡的創新能力。

在一篇名為《閃存中的LLM:有限內存下的高效大語言模型推理》(LLM in a flash: Efficient Large Language Model Inference withLimited Memory)的論文中,研究人員設計一種創新系統來存儲模型數據。這種系統將數據主要存儲在設備的SSD而非RAM上。

研究人員寫道:“我們已證明能夠在SSD上運行的LLM大小是可用DRAM的兩倍,推理速度在CPU上提高4到5倍,在GPU上提升20到25倍。”他們發現,通過巧妙利用設備上最便宜且易於獲得的存儲空間,可以使模型運行得更快更高效。

此外,蘋果研究人員還開發一個名為EELBERT的系統,該系統能夠將大語言模型壓縮到更小的尺寸,同時基本保持其性能不受影響。他們在GoogleBERT模型上的測試成功將數據壓縮到原來的1/15,即隻有1.2兆字節,且質量僅下降4%。然而,這種壓縮確實帶來一些延遲上的妥協。

總體而言,蘋果正在努力解決模型世界中的一個核心矛盾:模型越大,其性能越好,但同時也變得更復雜、更耗電,運行速度更慢。與許多其他公司一樣,蘋果也在尋找在這些方面達到最佳平衡的方法,並探索實現這一目標的最有效途徑。

Siri將變得足夠好?

在探討人工智能產品時,虛擬助手的功能常常成為焦點——它們能獲取信息、提醒事項、解答疑問,甚至代替我們完成任務。因此,蘋果的許多人工智能研究專註於一個核心問題:如何將Siri提升至完美水平?

蘋果研發團隊正在探索一種無需喚醒詞即可激活Siri的新方法。想象一下,無需再說“嘿Siri”或“Siri”,設備就能直覺地感知到你是否在與它對話。研究人員承認:“這一挑戰比簡單的語音觸發檢測要復雜得多,因為缺少標志語音命令開始的明確觸發短語。”為解決這一問題,另一組研究人員致力於開發更精確的喚醒詞檢測系統。另一項研究中,他們訓練一個模型,以更好地理解那些通常難以被虛擬助手理解的罕見詞匯。

大語言模型的優勢在於其理論上能更快地處理大量信息。例如,在喚醒詞研究中,研究人員發現,不是刻意排除所有不必要的聲音,而是將所有聲音都輸入模型,讓模型自己判斷哪些是重要的,這樣做可以顯著提高喚醒詞的識別率。

一旦Siri捕獲到用戶的聲音,蘋果便竭盡全力確保其能更好地理解並進行交流。其中一個創新是名為STEER的系統,該系統通過判斷用戶是在提出後續問題還是新問題,來改善與虛擬助手的交互。

另一個研究利用大語言模型處理“模糊查詢”,使得無論用戶如何表達,系統都能準確理解其意圖。研究人員指出:“在不確定情況下,智能對話代理可能需要主動提問,以減少不確定性,從而更有效地解決問題。”還有一項研究致力於使生成的回答更加簡潔明,研究人員利用大語言模型優化虛擬助手的語言表達。

AI在健康、創作以及音樂領域的應用

每當蘋果公開討論人工智能時,其焦點總是如何讓這項技術改善日常生活,而非僅僅展示其技術力量。因此,盡管Siri得到廣泛關註,特別是蘋果正試圖與如HumaneAI Pin、Rabbit R1這樣的設備競爭,同時Google也在將Gemini集成到所有Android系統中,蘋果顯然看到人工智能在多個領域的巨大潛力。

在蘋果關註的諸多領域中,健康領域尤其重要。理論上,大語言模型能幫助我們分析從各種設備收集的海量生物識別數據,並理解這些數據的深層含義。因此,蘋果一直在積極探索如何收集並整合用戶的運動數據,如何利用步態識別和耳機識別用戶身份,以及如何追蹤和解讀心率數據。為推進這一領域的研究,蘋果還創建並發佈名為“最大的基於多設備多位置傳感器的人類活動數據集”,收集50名參與者的詳細生物傳感數據。

蘋果還視人工智能為創新工具。在一項研究中,研究人員與動畫師、設計師和工程師進行深入交流,開發名為Keyframer的系統。此系統允許用戶迭代地構建和完善設計。與傳統圖像生成不同,Keyframer並非僅僅依賴輸入提示符來生成圖像,而是提供一個工具箱,用戶可以根據個人喜好調整和完善圖像的各個部分。這一系統可廣泛應用於從Memoji個性化設計到蘋果更專業的藝術工具等多個領域。

另一項研究描述一個名為MGIE的工具,該工具允許用戶通過描述修改意圖來直接編輯圖像,如“讓天空更藍”、“讓我的臉看起來不那麼奇怪”或“添加一些石頭”,MGIE能將這些指令轉化為明確的視覺意圖,並實現合理的圖像編輯。盡管初期實驗並非完美無缺,但其潛力已經顯現。

在Apple Music中,人工智能的應用同樣值得關註。一篇名為《資源受限的立體聲唱歌聲音消除》(Resource-constrained Stereo Singing Voice Cancellation)的論文探討如何將歌曲中的人聲與樂器聲分離的技術,這一技術如果被蘋果采用,將為喜歡混音的TikTok或Instagram用戶提供強大的工具。

蘋果硬件與AI相結合

本文作者敢斷言,隨著時間的推移,蘋果將越來越多地將人工智能技術融入其產品和服務,特別是在iOS平臺上。蘋果不僅將在其自傢應用程序中集成這些功能,還計劃通過API向第三方開發者開放。蘋果一直自豪於其硬件性能,尤其是相比普通Android設備。將強大的硬件與註重隱私的人工智能結合使用,無疑將為蘋果在市場競爭中帶來顯著優勢。

然而,談到蘋果最大、最具野心的人工智能項目,不得不提Ferret。Ferret是一個多模態大語言模型,可以根據用戶的指令,專註並理解用戶指定的對象及其周圍環境。這項技術是為應對當前常見的AI場景而設計的,即向設備詢問周圍的世界信息。

但Ferret的潛能不僅限於此,它還能解析並理解屏幕上的內容。在Ferret的相關論文中,研究人員展示它如何幫助用戶導航應用程序,回答關於App Store評分的問題,以及描述他們所看到的內容等。這對提高可訪問性有深遠的意義,也可能徹底改變人們使用手機、Vision Pro和智能眼鏡的方式。

雖然我們對這些技術的設想可能看起來頗為超前,但想象一下,這些技術如何與蘋果正在開發的其他產品相結合:一個能夠理解你需求的Siri,配合一個能看見並理解屏幕上所有內容的設備,將真正實現手機的自我操作。蘋果不需要對所有產品進行深度整合,隻需運行相應的應用程序並自動點擊正確的按鈕即可。

必須指出,這一切目前還隻是處於研究階段。如果從今年春天開始,這些技術能夠順利運行並應用到實際產品中,那將是一項前所未有的技術成就。我們預計在今年的WWDC上,將見證蘋果在人工智能領域的重大公告。

蘋果CEOTim Cook(Tim Cook)在2月份已經透露這方面的信息,並在本周的財報電話會議上基本確認這一點。有兩件事已經很清楚:蘋果在AI競賽中處於激烈的競爭狀態,這些技術可能會徹底改變iPhone。想象一下,將來你甚至可能願意頻繁使用Siri,這將是蘋果在AI領域取得的重大成就。(小小)


相關推薦

2023-03-15

美國人工智能研究實驗室OpenAI周二為其爆紅聊天機器人ChatGPT發佈最新GPT-4語言模型,這距離ChatGPT的上線僅僅過去4個月時間。外媒稱,和ChatGPT最初使用的GPT-3.5模型相比,GPT-4帶來十大改進,提升準確率等功能,但是依舊存在錯誤

2024-05-11

保密政策。與Google、Meta和微軟相比,該公司發表的AI研究論文要少得多,而且不像競爭對手那樣參加各種會議。“研究科學傢會問:我還有什麼其他選擇嗎?我能回到學術界嗎?我能不能去研究機構,去一些能讓我更加公開工作

2024-05-11

和微軟等競爭對手相比,蘋果在發表人工智能相關的學術論文數量上顯得較少,也不頻繁參與行業會議。最近幾個月,蘋果增加發佈的人工智能研究論文數量,但一些著名的人工智能研究人員對這些論文的實際價值表示懷疑,認

2024-05-12

面也有著相當的阻力。由於蘋果的保密性,研究成果發表論文、參加會議的都很少,這對於科學傢來說幾乎是不可忍受的弊端。最近幾個月來,蘋果略微調整一貫的戰略,增加人工智能論文發表的數量,但業內的研究人員仍質疑

2024-03-25

說服幾位同事一起試驗新想法,並於2016年發表一篇相關論文。在這項研究中隻使用極小的文本訓練(SNLI數據集,包含57萬個人類寫的英語句子)。烏茲哥希望進一步推進他們的研究,但他的合作者都不感興趣再繼續。其他研究

2023-11-16

否可以點擊。看圖理解表現得很不錯~更多例子可以翻閱論文。2、本地化動作執行當讓GPT-4V把這些“紙上談兵”都化為具體行動時(即第二個測試任務),它的正確率有所下降,來到74.5%。還是上面的例子,它可以遵循自己給出

2024-04-30

據媒體對數百份LinkedIn個人資料以及公開招聘信息和研究論文的分析,蘋果近年來其實已掀起一股招聘狂潮,以擴大其全球人工智能和機器學習團隊。這傢iPhone制造商尤其把視線“瞄準”向來自谷歌的員工。據統計,自2018年挖來

2023-07-04

其超3億美元的制造成本,外界認為迪士尼和盧卡斯影業這回要賠2.3億美元。口碑方面,本片豆瓣7.3分。此前,另一部美國大片《閃電俠(The Flash)》也面臨著巨虧的命運。

2024-05-27

,今天我要跟大傢分享一個超級酷炫的話題——AI小說推文一鍵生成!是的,你沒聽錯,就是那種動動手指,就能讓AI幫你寫小說的神奇技術。這不僅僅是科技的飛躍,更是我們這些創作者的一大福音啊!一、AI小說推文,到底是個

2024-05-11

蘋果不打算直接發佈全新的聊天機器人與ChatGPT、Claude等競爭,而是專註於讓Siri更好地處理用戶請求,包括設置定時器、創建日歷事件和向雜貨清單添加物品等,全新的Siri或許還可以總結短信內容,一鍵創建GIF圖片等等。上周,

2023-04-13

在濫用的擔憂。例如,學生們已經使用ChatGPT生成完整的論文,而黑客已經開始測試它來編寫惡意代碼。上月底,馬斯克等上千名科技人士發表公開信,呼籲暫停訓練比GPT-4更強大的人工智能系統。但蓋茨卻認為,暫停開發並不能

2024-05-11

能將"堅定不移地關註隱私"。蘋果公司自己的研究論文表明,該公司將直接在 iPhone 上處理簡單的人工智能請求,而將更復雜的請求發送到第三方服務器。據傳,在 iOS 18 中獲得 AI 處理的應用程序不止筆記和語音備忘錄。

2023-03-16

據報道,前蘋果工程師JohnBurkey表示,蘋果語音助手Siri不可能像OpenAI旗下聊天機器人ChatGPT那樣強大。John說,Siri能夠通過從數據庫中提取內容來回答天氣、播放歌曲等簡單的問題或指令,但能理解的請求數量有限,要想豐富內容

2024-02-18

新的核心秘密時空Patches,竟是來自GoogleDeepMind和謝賽寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶Claude的頭條一樣,這一次,Google核彈級大殺器Gemini1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶去。100萬token的