復旦團隊研發大模型“眸思” 助力視障者“看見”世界


隻需一枚攝像頭和一對耳機,便能將畫面轉化成語言,描繪場景、提示風險,讓視障者出行更安全、生活更便捷。日前,在復旦大學自然語言處理實驗室(FudanNLP)師生的努力下,基於多模態大模型“復旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助手與智能管傢。


“聽見世界”App街道行走模式圖。本文圖片均為 復旦大學 供圖

2023年上半年,由復旦大學自然語言處理實驗室開發的MOSS被稱為中國版的GPT,僅用半年時間後,多模態模型“眸思”問世。

“眸思”與MOSS同音,但和基於文本的MOSS不同,它能夠理解並識別圖片內容,致力於成為視障者的一雙“眸”。


設計使用概念圖

基於“眸思”的“聽見世界”APP,為視障者日常生活需求量身打造設計三種模式。

在街道行走模式下,“眸思”如一位忠實的向導,紅綠燈、十字路口、障礙物……它將細致掃描道路情況,提示潛在風險,陪伴視障者安全通行“看不見”的漫漫長路。

在自由問答模式下,“眸思”則是一位貼心的朋友,讓視力障礙者走進博物館、藝術館、公園,幫助捕捉四周景象的每個細節,用聲音構建豐富的生活場景,傳遞每一處日常之美。

在尋物模式下,“眸思”將成為一名可靠的管傢,被移動的手杖、最愛口味的牛奶……日常物件的尋覓過程變得輕松無壓力。

據研究團隊透露,中國盲人數量有1700多萬,也就是說,每一百人中就有一位。但為什麼在大多數人的認知裡極少在街上看到盲人?這是因為,面對大量不安全因素,他們難以獨自跨出傢門。

復旦大學自然語言實驗室張奇教授說,人工智能發展日新月異,科技應該要改變更多人的生活,希望“眸思”能夠幫助視障人士走出傢門,讓他們可以嘗試更多工作,為人生書寫更多可能。”

項目落地背後,是一支年輕的團隊和開放的氛圍,從本科生到博士生共25名復旦學子及桂韜等多位教師、專傢的加入,才有“眸思”接續“MOSS”的成功。

張奇介紹,該項目的主導者實際上都是“初出茅廬”的學生們,在組內頭腦風暴會上,年輕學子總能提出開創性想法,能夠找到另辟蹊徑的解決辦法。

自去年9月以來,為更好地感受視障者的難處,團隊成員同樣模擬真實情境,蒙眼探索視障者“黑暗”世界,並邀請視障人士加入,進一步摸清真實而具體的需求。


復旦大學研究團隊

今年上半年,團隊將結合AR升級APP內的定位精度細化至亞米級別,下半年團隊希望將“眸思”升級到基於視頻的判斷。更多模式也正在開發中,比如閱讀模式服務盲人朋友點菜、讀書等場景,解說模式承擔無障礙電影解說員的工作等。

在政府的支持下,團隊計劃與NGO組織、智算中心和硬件廠商等開展合作,致力於讓視障者免費使用產品和相關服務。

預計今年3月,“聽見世界”APP將完成第一輪測試,並在中國一、二線城市和地區同步開啟試點,根據算力部署情況進行推廣。


相關推薦

2023-02-21

業界關註的一個焦點。今天,解放日報·上觀新聞記者從復旦大學自然語言處理實驗室獲悉,國內第一個對話式大型語言模型MOSS已由邱錫鵬教授團隊發佈至公開平臺,邀公眾參與內測。MOSS可執行對話生成、編程、事實問答等一

2023-02-21

國內第一個對話式大型語言模型MOSS已由復旦大學邱錫鵬教授團隊發佈至公開平臺(https://moss.fastnlp.top/),邀公眾參與內測。當晚,社交媒體上出現截圖,顯示該平臺“服務器流量過載,請明天上午重試”。隨後,該平臺官網發

2023-04-23

復旦大模型MOSS,正式開源!作為國內首個開放測試的類ChatGPT產品,MOSS開源地址一放出,又沖上知乎熱搜:從官網介紹來看,MOSS是一個擁有160億參數的開源對話語言模型。它由約7000億中英文及代碼單詞預訓練得到,精度要求不

2024-05-14

人群實時解身邊場景並提供幫助。這款APP利用最新的GPT-4o模型,結合實時視覺和語音能力。通過這款APP,盲人可以隨時解自己周圍的環境,並通過語音助手的幫助做出一些決策。這標志著GPT不再隻是一個簡單的助手,而是向著朋

2023-01-19

無障礙基礎功能該有的都有的情況下,我們更希望廠商在研發新功能的時候,可以從一開始就考慮功能的無障礙體驗,而不是後續再補足,讓障礙群體的體驗 永遠慢半拍 ,同時也希望廠商可以重視 AI視覺識別 這種高階功能的投

2023-03-19

但最終實際測試結果還是令人大跌眼鏡,可能與百度開發團隊的認知有關系。在下文中,我會略作分析。需要提醒的是,本報告僅僅是一個早期工作,並不完善。測試流程有無數可以改善之處。結論未來隨時可能被修正、被推翻

2022-08-22

辨率數據格式。於是四位視障學者與生物化學傢 Bryan Shaw 團隊合作,開發出一種讓盲人“閱讀”的簡單方法。這四位作者自出生或幼年就失明,是克服視覺障礙成為科學傢的極少數人;而 Bryan Shaw 帶頭這項研究,則是為幫助自己

2023-08-07

來操控,然而語音控制並不利於言語障礙者使用。因此,團隊成員設計這款基於視覺識別系統的全新手勢交互智能中樞,通過深度相機結合手勢控制,計算手掌與設備的空間關系,讓智能設備可以實現“指哪控哪”,以更自然的

2023-02-26

本月早些時候,復旦大學推出國內首個類ChatGPT的對話式大型語言模型,並將其命名為MOSS。這個來自旦大學計算機科學技術學院教授邱錫鵬團隊,與《流浪地球》中人工智能同名的AI模型,目前已經發佈到公開平臺,供大眾用戶

2023-12-03

無障礙聯合創新實驗室組織視障用戶體驗員先期參與產品研發和測試,進行針對性設計、調試產品功能,優化交互體驗。北京山水民樂藝術團琵琶手李夢琪是一位視障用戶,她在參與此次研發測試時表示,“無障礙版影片目前極

2023-02-27

2月27日 消息:據第一財經消息,復旦大學計算機科學技術學院教授邱錫鵬在2023年世界人工智能開發者先鋒大會上表示,如果優化順利,計劃在三月底開源MOSS。“這個模型,我們計劃在這一個月(二月)和人類不斷交互,進行優

2022-11-02

光的模式來無線傳輸數據的Li-Fi系統。一個沙特阿拉伯的團隊創造一個能源密集度較低的替代方案,它可以使用調制的陽光來代替傳統的Wi-Fi。目前正在阿卜杜拉國王科技大學(KAUST)進行開發,該系統利用被稱為雙單元液晶快門

2023-02-27

現城市地下基礎設施綠色、智慧、和諧可持續發展。項目團隊研發7種在線監測設備、4種巡檢機器人、多個智能診斷平臺,進行整體解決方案的首發示范應用,可實現3種場景6種災害情境 20 種事件的風險測度、實時監測、智能巡

2023-03-02

在全球點燃新一輪AI革命,海內外關註度陡增。前不久,復旦大學計算機科學技術學院邱錫鵬團隊發佈類ChatGPT模型MOSS,新聞迅速登上微博熱搜。近日,邱錫鵬團隊接受訪談,詳細介紹人們關註的MOSS。圖說:MOSS大傢最興奮的一天