下一代Windows系統曝光:基於GPT-4V Agent跨應用調度 代號UFO


下一代Windows操作系統提前曝光??微軟首個為Windows而設的智能體(Agent) 亮相:基於GPT-4V,一句話就可以在多個應用中無縫切換,完成復雜任務。整個過程無需人為幹預,其執行成功率和效率是GPT-4的兩倍,GPT-3.5的四倍。比如,刪除PPT演示文稿上的所有備註。幾個簡單步驟就可完成。

還有像利用多個來源文本,比如word文檔、圖像文本內容,撰寫電子郵件。

網友表示:這才是Windows級別應有的創新能力

第一個Windows Agent來

這樣一個智能體叫做UFO,全名“UI-Focused”,是一個專為Windows OS(操作系統)交互設計、面向用戶界面(UI)的智能體框架,可以在單個或者多個應用程序中操作,由MSRA、微軟AI與應用研究團隊等共同打造。

用戶就可以通過自然語言指令,來操作App的用戶界面。

據介紹,UFO是第一個專為Windows OS環境中的任務完成量身定制的UI Agent。

就拿刪除PPT上的所有註釋為例。傳統方式需要一頁一頁手動刪除註釋。如果PPT巨長無比,這個過程就會又久又無聊,讓人瞬間暴躁。

但UFO得到指令後,簡化整個過程。

它先是提議用“刪除所有演示筆記”功能,這個功能因為按鈕位置藏得很深,經常被用戶忽視。

而後,UFO導航到“File”選項,對後臺視圖進行訪問;然後,再平滑地切換到“info”菜單,單擊“檢查問題”按鈕,並選擇“檢查文檔”,開始檢查文檔中所有包含的註釋。

緊接著,UFO識別到菜單地步的“刪除所有演示筆記”,向下滾動定位到其位置,啟動單擊功能。

考慮到誤刪的可能性,UFO這裡有一道保護功能,需要用戶再次確定是否真的要刪除所有註釋。

用戶一旦確認,所有筆記就“

”的一下都沒有~

如PowerPoint這般,文章中對其它幾個場景進行圖文並茂的展示。

比如讀一篇PDF:

設計PPT格式:

下載Docker拓展:

發條推文:

搜索總結:

讀篇paper:

以及怎麼利用UFO在Word文檔裡提取文本、描述圖像、撰寫然後發送電子郵件等。

研究團隊在9個常用的Windows應用程序上對UFO進行測試,包括Outlook、Photos、PPT、Word等,涵蓋Windows用戶的高頻使用場景,能夠測試工作、交流、編碼、閱讀、網頁瀏覽等目的。

對於每個應用程序,團隊設計5個不同的請求,共45個;另外還設計5個設計跨多個交互應用程序的請求。

也就是說,共產生50個請求,每個應用程序至少有一個請求鏈接到另一個後續請求,提供全面評估UFO的互動模式。

在評估指標方面,則從成功度、步驟、完成率和保障率這幾個角度來評估UFO。

為全面評估UFO的性能,團隊開發名為WindowsBench的測試基準。

考慮到沒有現成的Windows Agent,團隊選擇GPT-3.5和GPT-4作為基座模型,並且指示它們提供一步一步的指導來完成用戶請求。

值得註意的是,UFO在WindowsBench上成功率達到86%,成倍超過GPT-4——因此UFO可以被定位為一個高效的Agent。

而UFO的完成率也是最好的,這表明它有能力采取更精確的動作;此外,UFO完成任務的步驟也是最少的,安全度也是最高的。

最後,9個場景從4個角度在WindowsBench的詳細得分如下:

三個模塊組成

既然如此,這樣一個操作系統級別的Agent,究竟是如何實現的呢?

首先,它理解用戶的自然語言要求,然後將其分解為一系列子任務。然後觀察用戶界面,並對其控制元素進行操作,以實現總體目標。

既然如此,又是如何實現的呢?

架構上看,UFO是個雙Agent框架,主要有三個模塊:

應用智能體(AppAgent),選擇一個應用程序滿足用戶請求。

行動智能體(ActAgent),負責在所選應用中反復執行任務。

交互控制,無需人工幹預,全自動執行。

在收到用戶請求後,AppAgent會對需求進行分析。除此之外,還有這些信息作為輸入:桌面截圖、App信息、記憶以及示例。

其中,UFO為AppAgent提供完整的桌面截圖和可用應用程序列表以供參考。

然後從當前激活的應用程序中選擇一個合適的應用程序,並制定一個全局實現計劃,將其傳遞給ActAgent。

一旦找到合適的應用程序,App就會出現在桌面上。隨後ActAgent啟動操作。

在每個操作選擇之前,UFO都會捕獲當前應用程序用戶界面窗口的屏幕截圖,並標註所有可用控件。此外,UFO還記錄每個控件的相關信息,供 ActAgent觀察。

ActAgent的任務是選擇要操作的控件,然後通過控件交互模塊選擇要在所選控件上執行的特定操作。

這一決定是基於 ActAgent 的觀察結果、先前計劃和操作記憶做出的。

這個遞歸過程一直持續到用戶請求在所選應用程序中成功完成為止。至此,用戶請求的一個階段結束。

如果需要跨越多個應用程序,那麼在ActAgent 完成當前任務之後,ActAgent 將把任務委托給 AppAgent,以便切換到不同的應用程序,從而啟動請求的第二階段。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

用戶可以選擇提出新的請求,促使 UFO 通過重復上述過程來處理新任務。

研究團隊依據日常鼠標操作,還開發自定義操作,比如單擊、選擇文本、滾動等,以此來完成對於控件的操作。

主要有這些控制類型。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

微軟全球資深副總裁、MSRA副院長領銜

最後介紹一下UFO的研究團隊,其中大多數都為華人。

通訊作者Chaoyun Zhang,是微軟DKI(Data、Knowledge、Intelligence,數據/知識/情報)*小組的高級研究員。

他於2020年,在愛丁堡大學獲得碩士和博士學位,研究興趣包括時間序列建模、時空數據挖掘、因果推理以及雲服務和 AIOps的可解釋機器學習。

Chaoyun Zhang還是華中科技大學校友,出國前在華中科技大學電子信息與通信學院取得學士學位。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

作者Liqun Li,現為微軟DKI組首席研究員。

他先畢業於清華大學計算機科學與技術系,取得學士學位;而後又在2012年獲得中國科學院軟件研究所博士學位。期間,Liqun Li曾作為訪問學者前往密歇根州立大學。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

作者Saravan Rajmohan,Miceosoft 365的AI及應用研究的合作夥伴總監。

他領導應用研究團隊與Microsoft的各個研究小組進行深入協作,將算法研究與AI/ML技術和硬件創新相結合

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

作者張冬梅,MSRA(微軟亞洲研究院)常務副院長,微軟傑出首席科學傢。

她從2004年起加入MSRA,從事和領導DKI領域的研究工作,近幾年,團隊將研究擴大到商業智能領域。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

作者張祺,微軟全球資深副總裁。

此前,張祺曾任微軟(亞洲)互聯網工程院常務副院長,兼任微軟移動聯新互聯網服務有限公司董事長,負責微軟互聯網業務及人工智能平臺在亞洲的團隊。

同時,他也是微軟中國首位“全球傑出工程師”。

下一代Windows系統曝光:基於GPT-4V,Agent跨應用調度,代號UFO

最後,簡單介紹一下多位作者的工作單位:MSRA的DKI組。

DKI是Data、Knowledge、Intelligence的簡寫。

該小組致力於AI、數據分析、數據交互、數據可視化的研究,探索全新的數據分析、展示、交互技術,讓數據和數據中的發現故事被高效地理解、廣泛地傳播。

團隊與微軟產品如Excel,PowerPoint等深度合作,常年在各個領域的頂會和期刊上發表論文。


相關推薦

2023-11-04

麼做到的。教GPT-4V“自動上網”GPT-4V-Act,本質上是一個基於Web瀏覽器的AI多模態助手(Chromium Copilot)。它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面,並通過網頁中的交互按鍵進行下一步操作。要實現這種效果,除GP

2023-11-16

、微軟等機構。它本身是開發一個MM-Navigator,也就是一種基於GPT-4V的agent,用於開展智能手機用戶界面的導航任務。實驗設置在每一個時間步驟,MM-Navigator都會得到一個屏幕截圖。作為一個多模態模型,GPT-4V接受圖像和文本作為

2023-11-13

個詞,應用程序與服務都需要平臺的支撐。Android、iOS、Windows都是平臺,而下一個平臺,將是Agent。要創建新應用程序與服務時,你無需懂代碼,也無需進行圖形設計,隻需告訴Agent你想要什麼,它便能替你做好所有事。這也正是

2024-01-21

將於今年下半年迎來重大更新(Windows 11 24H2),重點關註下一代AI體驗,有望帶來更加高級的人工智能助手,增強Windows UX,以提高跨應用程序、搜索等生產力。

2023-12-07

,南至揚克斯。最新消息顯示,“Hudson Valley”的重點是下一代人工智能體驗,它的一切都與AI有關。AI將在整個操作系統中“編織和集成”,其中大部分體驗需要新的NPU硬件才能運行。“Hudson Valley”將引入AI驅動的Windows Shell核心

2024-09-08

慣學習和場景環境感知、意圖識別及決策能力、應用內及跨應用操作。趙明表示,總結就是AI一句話的事兒,一句話幫你搞定許多手機操作。比如我們手機可能會有一些自動續費的應用,單獨查詢會特別麻煩,我們隻需語音對手

2024-01-31

ws 11 22H2 更新代碼庫。微軟 Build 大會上的一張幻燈片預告下一代 Windows根據我們對 Windows 開發的解,以下是 Windows 版本的發佈情況:Windows 11(21H2):該初始版本代號為"太陽谷",基於"鈷"代碼庫。它於 2021 年 10 月

2022-09-06

格,自成一派”,HUAWEI Mate 50系列搭載的超光變XMAGE影像系統,首創十檔可調物理光圈,成為Mate史上最精密,最強大的移動影像系統。“領勢體驗,再進一步”,首發搭載鴻蒙操作系統3.0,交互體驗流暢、創新服務智慧安全;創

2023-11-06

。不止是他,網友也都不理解GPT-4V作為一個“精準的”AI系統,按理很智能,為什麼還會犯和人類一模一樣的錯覺??!所以,這到底怎麼回事?GPT-4V五大錯覺挑戰下面是來自網友的更多測試案例。首先是次次都錯誤的顏色錯覺

2023-11-07

。不止是他,網友也都不理解GPT-4V作為一個“精準的”AI系統,按理很智能,為什麼還會犯和人類一模一樣的錯覺??!所以,這到底怎麼回事?GPT-4V五大錯覺挑戰下面是來自網友的更多測試案例。首先是次次都錯誤的顏色錯覺

2024-01-18

行個人Agent自然語言交互,擁有多模態自然語言交互UI、基於本地大模型的個人Agent。必不可少的還有內嵌個人大模型,以本地大模型為主、雲端大模型為輔,同時支持個性化的本地知識庫。此外還要有開放的AI應用生態,各種AI

2022-08-27

針對英特爾混合CPU架構的持續優化,Linux或很快實現超越Windows11操作系統的性能提升。回顧2021年的架構日活動,芯片巨頭英特爾介紹采用大小核設計的12代AlderLakeCPU的核心設計細節。當時該公司稱,其已攜手微軟在Windows11操作系

2024-03-14

球已有不少開發者申請使用,並普遍反饋效果超出預期。基於此,此次Yi 大模型 API 正式推出3款模型,給開發者更多驚喜。目前,Yi 大模型API名額限量開放中,新用戶贈送60元。Yi 大模型 API 與 OpenAI API 完全兼容,開發者隻需修

2023-11-08

模型的商業化進一步落地。早在今年5月,OpenAI開放插件系統後,首批上線70個大模型相關的應用,包括猜詞、翻譯、查找股票數據等等工具,彼時便有人預測到,大模型的App Store來,但後期應用逐漸增加,卻並沒有跑出“爆款級