下一代Windows系統曝光：基於GPT-4V Agent跨應用調度代號UFO

2024-02-15 來自量子位發表於業界精選

下一代Windows操作系統提前曝光？？微軟首個為Windows而設的智能體（Agent）&nbsp;亮相：基於GPT-4V，一句話就可以在多個應用中無縫切換，完成復雜任務。整個過程無需人為幹預，其執行成功率和效率是GPT-4的兩倍，GPT-3.5的四倍。比如，刪除PPT演示文稿上的所有備註。幾個簡單步驟就可完成。

還有像利用多個來源文本，比如word文檔、圖像文本內容，撰寫電子郵件。

網友表示：這才是Windows級別應有的創新能力

第一個Windows Agent來

這樣一個智能體叫做UFO，全名“UI-Focused”，是一個專為Windows OS（操作系統）交互設計、面向用戶界面（UI）的智能體框架，可以在單個或者多個應用程序中操作，由MSRA、微軟AI與應用研究團隊等共同打造。

用戶就可以通過自然語言指令，來操作App的用戶界面。

據介紹，UFO是第一個專為Windows OS環境中的任務完成量身定制的UI Agent。

就拿刪除PPT上的所有註釋為例。傳統方式需要一頁一頁手動刪除註釋。如果PPT巨長無比，這個過程就會又久又無聊，讓人瞬間暴躁。

但UFO得到指令後，簡化整個過程。

它先是提議用“刪除所有演示筆記”功能，這個功能因為按鈕位置藏得很深，經常被用戶忽視。

而後，UFO導航到“File”選項，對後臺視圖進行訪問；然後，再平滑地切換到“info”菜單，單擊“檢查問題”按鈕，並選擇“檢查文檔”，開始檢查文檔中所有包含的註釋。

緊接著，UFO識別到菜單地步的“刪除所有演示筆記”，向下滾動定位到其位置，啟動單擊功能。

考慮到誤刪的可能性，UFO這裡有一道保護功能，需要用戶再次確定是否真的要刪除所有註釋。

用戶一旦確認，所有筆記就“

”的一下都沒有～

如PowerPoint這般，文章中對其它幾個場景進行圖文並茂的展示。

比如讀一篇PDF：

設計PPT格式：

下載Docker拓展：

發條推文：

搜索總結：

讀篇paper：

以及怎麼利用UFO在Word文檔裡提取文本、描述圖像、撰寫然後發送電子郵件等。

研究團隊在9個常用的Windows應用程序上對UFO進行測試，包括Outlook、Photos、PPT、Word等，涵蓋Windows用戶的高頻使用場景，能夠測試工作、交流、編碼、閱讀、網頁瀏覽等目的。

對於每個應用程序，團隊設計5個不同的請求，共45個；另外還設計5個設計跨多個交互應用程序的請求。

也就是說，共產生50個請求，每個應用程序至少有一個請求鏈接到另一個後續請求，提供全面評估UFO的互動模式。

在評估指標方面，則從成功度、步驟、完成率和保障率這幾個角度來評估UFO。

為全面評估UFO的性能，團隊開發名為WindowsBench的測試基準。

考慮到沒有現成的Windows Agent，團隊選擇GPT-3.5和GPT-4作為基座模型，並且指示它們提供一步一步的指導來完成用戶請求。

值得註意的是，UFO在WindowsBench上成功率達到86%，成倍超過GPT-4——因此UFO可以被定位為一個高效的Agent。

而UFO的完成率也是最好的，這表明它有能力采取更精確的動作；此外，UFO完成任務的步驟也是最少的，安全度也是最高的。

最後，9個場景從4個角度在WindowsBench的詳細得分如下：

三個模塊組成

既然如此，這樣一個操作系統級別的Agent，究竟是如何實現的呢？

首先，它理解用戶的自然語言要求，然後將其分解為一系列子任務。然後觀察用戶界面，並對其控制元素進行操作，以實現總體目標。

既然如此，又是如何實現的呢？

架構上看，UFO是個雙Agent框架，主要有三個模塊：

應用智能體（AppAgent），選擇一個應用程序滿足用戶請求。

行動智能體（ActAgent），負責在所選應用中反復執行任務。

交互控制，無需人工幹預，全自動執行。

在收到用戶請求後，AppAgent會對需求進行分析。除此之外，還有這些信息作為輸入：桌面截圖、App信息、記憶以及示例。

其中，UFO為AppAgent提供完整的桌面截圖和可用應用程序列表以供參考。

然後從當前激活的應用程序中選擇一個合適的應用程序，並制定一個全局實現計劃，將其傳遞給ActAgent。

一旦找到合適的應用程序，App就會出現在桌面上。隨後ActAgent啟動操作。

在每個操作選擇之前，UFO都會捕獲當前應用程序用戶界面窗口的屏幕截圖，並標註所有可用控件。此外，UFO還記錄每個控件的相關信息，供 ActAgent觀察。

ActAgent的任務是選擇要操作的控件，然後通過控件交互模塊選擇要在所選控件上執行的特定操作。

這一決定是基於 ActAgent 的觀察結果、先前計劃和操作記憶做出的。

這個遞歸過程一直持續到用戶請求在所選應用程序中成功完成為止。至此，用戶請求的一個階段結束。

如果需要跨越多個應用程序，那麼在ActAgent 完成當前任務之後，ActAgent 將把任務委托給 AppAgent，以便切換到不同的應用程序，從而啟動請求的第二階段。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

用戶可以選擇提出新的請求，促使 UFO 通過重復上述過程來處理新任務。

研究團隊依據日常鼠標操作，還開發自定義操作，比如單擊、選擇文本、滾動等，以此來完成對於控件的操作。

主要有這些控制類型。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

微軟全球資深副總裁、MSRA副院長領銜

最後介紹一下UFO的研究團隊，其中大多數都為華人。

通訊作者Chaoyun Zhang，是微軟DKI（Data、Knowledge、Intelligence，數據/知識/情報）*小組的高級研究員。

他於2020年，在愛丁堡大學獲得碩士和博士學位，研究興趣包括時間序列建模、時空數據挖掘、因果推理以及雲服務和 AIOps的可解釋機器學習。

Chaoyun Zhang還是華中科技大學校友，出國前在華中科技大學電子信息與通信學院取得學士學位。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

作者Liqun Li，現為微軟DKI組首席研究員。

他先畢業於清華大學計算機科學與技術系，取得學士學位；而後又在2012年獲得中國科學院軟件研究所博士學位。期間，Liqun Li曾作為訪問學者前往密歇根州立大學。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

作者Saravan Rajmohan，Miceosoft 365的AI及應用研究的合作夥伴總監。

他領導應用研究團隊與Microsoft的各個研究小組進行深入協作，將算法研究與AI/ML技術和硬件創新相結合

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

作者張冬梅，MSRA（微軟亞洲研究院）常務副院長，微軟傑出首席科學傢。

她從2004年起加入MSRA，從事和領導DKI領域的研究工作，近幾年，團隊將研究擴大到商業智能領域。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

作者張祺，微軟全球資深副總裁。

此前，張祺曾任微軟（亞洲）互聯網工程院常務副院長，兼任微軟移動聯新互聯網服務有限公司董事長，負責微軟互聯網業務及人工智能平臺在亞洲的團隊。

同時，他也是微軟中國首位“全球傑出工程師”。

下一代Windows系統曝光：基於GPT-4V，Agent跨應用調度，代號UFO

最後，簡單介紹一下多位作者的工作單位：MSRA的DKI組。

DKI是Data、Knowledge、Intelligence的簡寫。

該小組致力於AI、數據分析、數據交互、數據可視化的研究，探索全新的數據分析、展示、交互技術，讓數據和數據中的發現故事被高效地理解、廣泛地傳播。

團隊與微軟產品如Excel，PowerPoint等深度合作，常年在各個領域的頂會和期刊上發表論文。

下一代Windows系統曝光：基於GPT-4V Agent跨應用調度代號UFO

相關推薦

GPT-4V學會用鍵鼠上網人類靜靜地看它發帖玩遊戲

Siri終結的開始？用GPT-4V“操縱”iPhone 無需訓練可完成任意指令

AI Agent統一互聯網？比爾蓋茨重磅發文：徹底改變人機交互、顛覆軟件行業

2024新版Windows 11要來！16GB內存需求引熱議隻是推薦配置

Windows 12“哈德遜河谷”重磅新功能曝光

榮耀最強旗艦！榮耀Magic7系列超前預熱：主打AI

趙明展示榮耀Magic7真機：直播現場用AI給周鴻禕點咖啡

新跡象表明Windows 11 24H2大型AI升級距離發佈又近一步

GPT-4V錯覺挑戰實錄：大跌眼鏡！該錯的沒錯不該錯的反而錯

GPT-4V錯覺挑戰實錄：大跌眼鏡！該錯的沒錯不該錯的反而錯

新補丁持續優化英特爾混合架構CPU性能調度 Linux或很快反超Windows 11

和普通電腦區別在哪：聯想公佈AI PC五大核心特征

領勢而上，HUAWEI Mate 50系列正式發佈

零一萬物發佈Yi大模型API開放平臺首批開放3款大模型

下一代Windows系統曝光：基於GPT-4V Agent跨應用調度 代號UFO

相關推薦

下一代Windows系統曝光：基於GPT-4V Agent跨應用調度代號UFO