GPT-4o實際應用案例:盲人可以更好地“看見”世界


視頻來自官方,翻譯:小互

OpenAI和Be My Eyes合作推出一款新的APP,旨在幫助視力受限人群實時解身邊場景並提供幫助。這款APP利用最新GPT-4o模型,結合實時視覺和語音能力。

通過這款APP,盲人可以隨時解自己周圍的環境,並通過語音助手的幫助做出一些決策。這標志著GPT不再隻是一個簡單的助手,而是向著朋友的方向邁出一大步。GPT-4o的新能力讓其可以與硬件結合,為用戶帶來更多可能性。

舉例來說,OpenAI在一段演示視頻中展示與專門為視障人士提供幫助的公司BeMyEyes的合作。他們將GPT-4o植入到一位盲人遊客的手機中,通過手機攝像頭成為盲人的眼睛。這使得盲人能夠得知面前發生的一切,比如白金漢宮的樣子、公園的環境,甚至是出租車是否停下等等。

應用特點

  • 實時視覺與語音能力:GPT-4o模型結合實時視覺和語音功能,使得盲人和視力受限用戶能夠通過語音助手的幫助,隨時解自己周圍的環境。

  • 決策輔助:通過實時的語音交互,該應用可以幫助用戶做出決策,如識別物品、導航指引等。

  • 模擬朋友的角色:與傳統的AI助手相比,GPT-4o更像是一個朋友,能夠以更自然的方式與用戶進行交流。

實際應用場景

環境描述:應用可以描述用戶面前的建築、自然景觀或其他場景,如白金漢宮的外觀或公園的環境。

日常任務輔助:幫助用戶識別出租車是否停下,或其他需要視覺判斷的簡單任務。

技術演示

OpenAI在演示視頻中展示GPT-4o的實際應用,通過將模型植入盲人遊客的手機中,借助攝像頭功能,實時傳遞周圍環境信息。

硬件結合潛力

GPT-4o的發佈預示著AI與硬件結合的更多可能性,為視障人士提供更多便利。

社會意義

這款應用的開發不僅體現OpenAI在AI領域的技術實力,更重要的是,它強調科技如何幫助解決社會問題,提高特定群體的生活質量。通過這樣的合作,OpenAI正將AI技術轉化為具有深遠社會影響的實際應用。


相關推薦

2024-03-03

眸思”接續“MOSS”的成功。張奇介紹,該項目的主導者實際上都是“初出茅廬”的學生們,在組內頭腦風暴會上,年輕學子總能提出開創性想法,能夠找到另辟蹊徑的解決辦法。自去年9月以來,為更好地感受視障者的難處,團

2024-05-14

響應時間接近人類的反應時間,特別適合需要即時反饋的應用,如實時語音翻譯。多語言和視覺理解能力GPT-4o在非英語文本處理方面取得顯著進步,大幅提高對多種語言的壓縮效率,並在視覺和音頻理解方面取得提升。應用領域

2024-07-05

,宣稱自己的模型參數規模和訓練數據量超越GPT-4,但在實際應用落地方面卻鮮有成熟方案。他預測,未來AI的主要落地形式將是智能體,在這波AI浪潮中,人工智能更多地扮演著副駕駛的角色,輔助人類而非取代人類。李彥宏在

2023-01-21

版社制作的《北京地鐵盲文線路卡》不過,光有這些盲文應用,還是不能適應盲人的需求。今天,海量的知識來自互聯網,需要用手機和電腦才能使用。如何讓盲人群體用上手機、電腦呢?工程師和設計師已經給出多種方案。例

2024-03-22

破,其Blindsight(盲視)”植入技術已經在猴子身上成功應用,這一進展預示著未來視力恢復的可能性。馬斯克對於這項技術的信心十足,他表示盡管一開始的分辨率可能會很低,就像早期的任天堂遊戲圖形一樣,但隨著技術的

2024-01-31

的大致GPS坐標,但這些人可能會在不知情的情況下站在離實際車站太遠的地方。一款新的應用程序通過讓智能手機的攝像頭參與其中,解決這一缺陷。這款名為"All_Aboard"的人工智能應用程序是由哈佛大學附屬馬薩諸塞州

2024-05-15

緊密的合作關系,OpenAI卻出人意料地率先發佈Mac版ChatGPT應用,而Windows版本則計劃在今年晚些時候推出。OpenAI技術總監Mira Murati對此解釋說,公司的選擇是基於用戶平臺的優先級,即我們隻是優先考慮用戶所在的平臺”。OpenAI表

2023-11-14

的。在最近的分析師活動中,IBM 展示大量使用 watsonx 的實際應用和客戶案例。盡管許多企業仍處於對生成式人工智能的探索階段,但 IBM 分享各種成功的實際實施案例。此外,IBM還詳細介紹watsonx和生成式人工智能的廣泛應用,

2024-05-14

有用戶 Ashley St Clair 在 X 上發帖稱,通過 OpenAI,人類現在可以讓人工智能為他們實時感知現實,“我們可能剛剛用更糟糕的東西取代後真相時代。”作為 OpenAI 的堅定批評者,馬斯克回答說,該公司的“演示讓我感到尷尬”。這

2022-08-22

出來,數據亂得讓人一頭霧水。這些都還不算大問題,對盲人來說,最大的攔路虎仍然是圖像。原標題:登上Science!將 2D 圖像打印成 3D 可觸,盲人離科學更近一步論文裡少不科學圖像,但視障人士慣用的盲文、轉語音等接收數

2023-02-05

今日消息,據小莉幫忙報道,在河南濮陽,小康是一位盲人從事按摩行業,他反映他使用的是iPhone 14 Pro Max,因為眼睛看不見,在使用旁白功能收付款時,播報會出現錯誤。在現場他用微信向他人轉賬158元,語音卻播報150元,收

2024-05-29

-4o技術支持的新技術引起行業內的關註。據悉,這項技術可以根據產品需求文檔(PRD)自動生成Figma設計稿,為設計師們提供全新的設計方式。它能夠自動生成設計稿,支持使用高質量的設計系統如Ant Design Mobile和Arco Mobile。以及

2024-05-23

ambientGPT是一款多模態 MacOS 基礎模型操作界面,可以調用GPT-4oAPI 或者本地開源模型進行問答,並能直接訪問屏幕內容而不需要截圖。它的本地模型是基於 Apple 的 MLX 庫,技術棧包括 Python + Node。產品入口:https://top.aibase.com/tool/am

2024-06-15

剛才的報告大傢也感受到大模型的能量以及其在各領域的應用潛力,可以說大模型是至今為止人工智能發展最成功的一個技術方向。想請問兩位,是什麼原因使得大模型如此成功?還有哪些欠缺的地方需要進一步發展?李開復: