隻需一枚攝像頭和一對耳機,便能將畫面轉化成語言,描繪場景、提示風險,讓視障者出行更安全、生活更便捷。日前,在復旦大學自然語言處理實驗室(FudanNLP)師生的努力下,基於多模態大模型“復旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助手與智能管傢。
“聽見世界”App街道行走模式圖。本文圖片均為 復旦大學 供圖
2023年上半年,由復旦大學自然語言處理實驗室開發的MOSS被稱為中國版的GPT,僅用半年時間後,多模態模型“眸思”問世。
“眸思”與MOSS同音,但和基於文本的MOSS不同,它能夠理解並識別圖片內容,致力於成為視障者的一雙“眸”。
設計使用概念圖
基於“眸思”的“聽見世界”APP,為視障者日常生活需求量身打造設計三種模式。
在街道行走模式下,“眸思”如一位忠實的向導,紅綠燈、十字路口、障礙物……它將細致掃描道路情況,提示潛在風險,陪伴視障者安全通行“看不見”的漫漫長路。
在自由問答模式下,“眸思”則是一位貼心的朋友,讓視力障礙者走進博物館、藝術館、公園,幫助捕捉四周景象的每個細節,用聲音構建豐富的生活場景,傳遞每一處日常之美。
在尋物模式下,“眸思”將成為一名可靠的管傢,被移動的手杖、最愛口味的牛奶……日常物件的尋覓過程變得輕松無壓力。
據研究團隊透露,中國盲人數量有1700多萬,也就是說,每一百人中就有一位。但為什麼在大多數人的認知裡極少在街上看到盲人?這是因為,面對大量不安全因素,他們難以獨自跨出傢門。
復旦大學自然語言實驗室張奇教授說,人工智能發展日新月異,科技應該要改變更多人的生活,希望“眸思”能夠幫助視障人士走出傢門,讓他們可以嘗試更多工作,為人生書寫更多可能。”
項目落地背後,是一支年輕的團隊和開放的氛圍,從本科生到博士生共25名復旦學子及桂韜等多位教師、專傢的加入,才有“眸思”接續“MOSS”的成功。
張奇介紹,該項目的主導者實際上都是“初出茅廬”的學生們,在組內頭腦風暴會上,年輕學子總能提出開創性想法,能夠找到另辟蹊徑的解決辦法。
自去年9月以來,為更好地感受視障者的難處,團隊成員同樣模擬真實情境,蒙眼探索視障者“黑暗”世界,並邀請視障人士加入,進一步摸清真實而具體的需求。
復旦大學研究團隊
今年上半年,團隊將結合AR升級APP內的定位精度細化至亞米級別,下半年團隊希望將“眸思”升級到基於視頻的判斷。更多模式也正在開發中,比如閱讀模式服務盲人朋友點菜、讀書等場景,解說模式承擔無障礙電影解說員的工作等。
在政府的支持下,團隊計劃與NGO組織、智算中心和硬件廠商等開展合作,致力於讓視障者免費使用產品和相關服務。
預計今年3月,“聽見世界”APP將完成第一輪測試,並在中國一、二線城市和地區同步開啟試點,根據算力部署情況進行推廣。