復旦團隊研發大模型“眸思” 助力視障者“看見”世界

2024-03-03 來自澎湃新聞網發表於業界精選

隻需一枚攝像頭和一對耳機，便能將畫面轉化成語言，描繪場景、提示風險，讓視障者出行更安全、生活更便捷。日前，在復旦大學自然語言處理實驗室（FudanNLP）師生的努力下，基於多模態大模型“復旦·眸思”（MouSi）為視障者量身打造的“聽見世界”APP上線，將成為視障人士的生活助手與智能管傢。

“聽見世界”App街道行走模式圖。本文圖片均為復旦大學供圖

2023年上半年，由復旦大學自然語言處理實驗室開發的MOSS被稱為中國版的GPT，僅用半年時間後，多模態模型“眸思”問世。

“眸思”與MOSS同音，但和基於文本的MOSS不同，它能夠理解並識別圖片內容，致力於成為視障者的一雙“眸”。

設計使用概念圖

基於“眸思”的“聽見世界”APP，為視障者日常生活需求量身打造設計三種模式。

在街道行走模式下，“眸思”如一位忠實的向導，紅綠燈、十字路口、障礙物……它將細致掃描道路情況，提示潛在風險，陪伴視障者安全通行“看不見”的漫漫長路。

在自由問答模式下，“眸思”則是一位貼心的朋友，讓視力障礙者走進博物館、藝術館、公園，幫助捕捉四周景象的每個細節，用聲音構建豐富的生活場景，傳遞每一處日常之美。

在尋物模式下，“眸思”將成為一名可靠的管傢，被移動的手杖、最愛口味的牛奶……日常物件的尋覓過程變得輕松無壓力。

據研究團隊透露，中國盲人數量有1700多萬，也就是說，每一百人中就有一位。但為什麼在大多數人的認知裡極少在街上看到盲人？這是因為，面對大量不安全因素，他們難以獨自跨出傢門。

復旦大學自然語言實驗室張奇教授說，人工智能發展日新月異，科技應該要改變更多人的生活，希望“眸思”能夠幫助視障人士走出傢門，讓他們可以嘗試更多工作，為人生書寫更多可能。”

項目落地背後，是一支年輕的團隊和開放的氛圍，從本科生到博士生共25名復旦學子及桂韜等多位教師、專傢的加入，才有“眸思”接續“MOSS”的成功。

張奇介紹，該項目的主導者實際上都是“初出茅廬”的學生們，在組內頭腦風暴會上，年輕學子總能提出開創性想法，能夠找到另辟蹊徑的解決辦法。

自去年9月以來，為更好地感受視障者的難處，團隊成員同樣模擬真實情境，蒙眼探索視障者“黑暗”世界，並邀請視障人士加入，進一步摸清真實而具體的需求。

復旦大學研究團隊

今年上半年，團隊將結合AR升級APP內的定位精度細化至亞米級別，下半年團隊希望將“眸思”升級到基於視頻的判斷。更多模式也正在開發中，比如閱讀模式服務盲人朋友點菜、讀書等場景，解說模式承擔無障礙電影解說員的工作等。

在政府的支持下，團隊計劃與NGO組織、智算中心和硬件廠商等開展合作，致力於讓視障者免費使用產品和相關服務。

預計今年3月，“聽見世界”APP將完成第一輪測試，並在中國一、二線城市和地區同步開啟試點，根據算力部署情況進行推廣。

相關推薦