下一代Windows操作系統提前曝光??微軟首個為Windows而設的智能體(Agent) 亮相:基於GPT-4V,一句話就可以在多個應用中無縫切換,完成復雜任務。整個過程無需人為幹預,其執行成功率和效率是GPT-4的兩倍,GPT-3.5的四倍。比如,刪除PPT演示文稿上的所有備註。幾個簡單步驟就可完成。
還有像利用多個來源文本,比如word文檔、圖像文本內容,撰寫電子郵件。
網友表示:這才是Windows級別應有的創新能力
第一個Windows Agent來
這樣一個智能體叫做UFO,全名“UI-Focused”,是一個專為Windows OS(操作系統)交互設計、面向用戶界面(UI)的智能體框架,可以在單個或者多個應用程序中操作,由MSRA、微軟AI與應用研究團隊等共同打造。
用戶就可以通過自然語言指令,來操作App的用戶界面。
據介紹,UFO是第一個專為Windows OS環境中的任務完成量身定制的UI Agent。
就拿刪除PPT上的所有註釋為例。傳統方式需要一頁一頁手動刪除註釋。如果PPT巨長無比,這個過程就會又久又無聊,讓人瞬間暴躁。
但UFO得到指令後,簡化整個過程。
它先是提議用“刪除所有演示筆記”功能,這個功能因為按鈕位置藏得很深,經常被用戶忽視。
而後,UFO導航到“File”選項,對後臺視圖進行訪問;然後,再平滑地切換到“info”菜單,單擊“檢查問題”按鈕,並選擇“檢查文檔”,開始檢查文檔中所有包含的註釋。
緊接著,UFO識別到菜單地步的“刪除所有演示筆記”,向下滾動定位到其位置,啟動單擊功能。
考慮到誤刪的可能性,UFO這裡有一道保護功能,需要用戶再次確定是否真的要刪除所有註釋。
用戶一旦確認,所有筆記就“
”的一下都沒有~
如PowerPoint這般,文章中對其它幾個場景進行圖文並茂的展示。
比如讀一篇PDF:
設計PPT格式:
下載Docker拓展:
發條推文:
搜索總結:
讀篇paper:
以及怎麼利用UFO在Word文檔裡提取文本、描述圖像、撰寫然後發送電子郵件等。
研究團隊在9個常用的Windows應用程序上對UFO進行測試,包括Outlook、Photos、PPT、Word等,涵蓋Windows用戶的高頻使用場景,能夠測試工作、交流、編碼、閱讀、網頁瀏覽等目的。
對於每個應用程序,團隊設計5個不同的請求,共45個;另外還設計5個設計跨多個交互應用程序的請求。
也就是說,共產生50個請求,每個應用程序至少有一個請求鏈接到另一個後續請求,提供全面評估UFO的互動模式。
在評估指標方面,則從成功度、步驟、完成率和保障率這幾個角度來評估UFO。
為全面評估UFO的性能,團隊開發名為WindowsBench的測試基準。
考慮到沒有現成的Windows Agent,團隊選擇GPT-3.5和GPT-4作為基座模型,並且指示它們提供一步一步的指導來完成用戶請求。
值得註意的是,UFO在WindowsBench上成功率達到86%,成倍超過GPT-4——因此UFO可以被定位為一個高效的Agent。
而UFO的完成率也是最好的,這表明它有能力采取更精確的動作;此外,UFO完成任務的步驟也是最少的,安全度也是最高的。
最後,9個場景從4個角度在WindowsBench的詳細得分如下:
三個模塊組成
既然如此,這樣一個操作系統級別的Agent,究竟是如何實現的呢?
首先,它理解用戶的自然語言要求,然後將其分解為一系列子任務。然後觀察用戶界面,並對其控制元素進行操作,以實現總體目標。
既然如此,又是如何實現的呢?
架構上看,UFO是個雙Agent框架,主要有三個模塊:
應用智能體(AppAgent),選擇一個應用程序滿足用戶請求。
行動智能體(ActAgent),負責在所選應用中反復執行任務。
交互控制,無需人工幹預,全自動執行。
在收到用戶請求後,AppAgent會對需求進行分析。除此之外,還有這些信息作為輸入:桌面截圖、App信息、記憶以及示例。
其中,UFO為AppAgent提供完整的桌面截圖和可用應用程序列表以供參考。
然後從當前激活的應用程序中選擇一個合適的應用程序,並制定一個全局實現計劃,將其傳遞給ActAgent。
一旦找到合適的應用程序,App就會出現在桌面上。隨後ActAgent啟動操作。
在每個操作選擇之前,UFO都會捕獲當前應用程序用戶界面窗口的屏幕截圖,並標註所有可用控件。此外,UFO還記錄每個控件的相關信息,供 ActAgent觀察。
ActAgent的任務是選擇要操作的控件,然後通過控件交互模塊選擇要在所選控件上執行的特定操作。
這一決定是基於 ActAgent 的觀察結果、先前計劃和操作記憶做出的。
這個遞歸過程一直持續到用戶請求在所選應用程序中成功完成為止。至此,用戶請求的一個階段結束。
如果需要跨越多個應用程序,那麼在ActAgent 完成當前任務之後,ActAgent 將把任務委托給 AppAgent,以便切換到不同的應用程序,從而啟動請求的第二階段。
用戶可以選擇提出新的請求,促使 UFO 通過重復上述過程來處理新任務。
研究團隊依據日常鼠標操作,還開發自定義操作,比如單擊、選擇文本、滾動等,以此來完成對於控件的操作。
主要有這些控制類型。
微軟全球資深副總裁、MSRA副院長領銜
最後介紹一下UFO的研究團隊,其中大多數都為華人。
通訊作者Chaoyun Zhang,是微軟DKI(Data、Knowledge、Intelligence,數據/知識/情報)*小組的高級研究員。
他於2020年,在愛丁堡大學獲得碩士和博士學位,研究興趣包括時間序列建模、時空數據挖掘、因果推理以及雲服務和 AIOps的可解釋機器學習。
Chaoyun Zhang還是華中科技大學校友,出國前在華中科技大學電子信息與通信學院取得學士學位。
作者Liqun Li,現為微軟DKI組首席研究員。
他先畢業於清華大學計算機科學與技術系,取得學士學位;而後又在2012年獲得中國科學院軟件研究所博士學位。期間,Liqun Li曾作為訪問學者前往密歇根州立大學。
作者Saravan Rajmohan,Miceosoft 365的AI及應用研究的合作夥伴總監。
他領導應用研究團隊與Microsoft的各個研究小組進行深入協作,將算法研究與AI/ML技術和硬件創新相結合
作者張冬梅,MSRA(微軟亞洲研究院)常務副院長,微軟傑出首席科學傢。
她從2004年起加入MSRA,從事和領導DKI領域的研究工作,近幾年,團隊將研究擴大到商業智能領域。
作者張祺,微軟全球資深副總裁。
此前,張祺曾任微軟(亞洲)互聯網工程院常務副院長,兼任微軟移動聯新互聯網服務有限公司董事長,負責微軟互聯網業務及人工智能平臺在亞洲的團隊。
同時,他也是微軟中國首位“全球傑出工程師”。
最後,簡單介紹一下多位作者的工作單位:MSRA的DKI組。
DKI是Data、Knowledge、Intelligence的簡寫。
該小組致力於AI、數據分析、數據交互、數據可視化的研究,探索全新的數據分析、展示、交互技術,讓數據和數據中的發現故事被高效地理解、廣泛地傳播。
團隊與微軟產品如Excel,PowerPoint等深度合作,常年在各個領域的頂會和期刊上發表論文。