根據研究,OpenAI最新的人工智能模型在分析眼部狀況方面幾乎與專傢醫生不相上下,這凸顯該技術在醫學領域的潛力。本周三發表的一篇論文顯示,微軟支持的新創公司的GPT-4模型在評估眼部問題和提出治療建議方面,除得分最高的專科醫生外,其他所有醫生都超過或達到相同的分數。
眼科一直是將人工智能應用於臨床並解決其應用障礙的工作重點,例如模型通過虛構數據產生"幻覺"的傾向。"這項工作表明,這些大型語言模型在眼健康方面的知識和推理能力現在幾乎與專傢無異,"發表在《PLOS 數字健康》雜志上的一篇論文的主要作者 Arun Thirunavukarasu 說。
他補充說:"我們看到回答相當復雜問題的能力。研究使用 87 種不同的病人情況來測試 GPT-4 在非專業初級醫生、見習眼科醫師和專傢眼科醫師中的表現。論文稱,該模型的表現優於初級醫生,並取得與許多專傢相似的結果。
研究人員說,這項研究之所以引人註目,是因為它將人工智能模型的能力與執業醫生的能力進行比較,而不是與檢查結果進行比較。它還運用生成式人工智能的廣泛能力,而不是之前一些人工智能醫學研究中測試的狹窄能力,如通過病人掃描診斷癌癥風險。該模型在需要一階記憶的問題和需要高階推理的問題(如插值、解釋和處理信息的能力)上表現同樣出色。
Thirunavukarasu 在劍橋大學臨床醫學院學習期間開展這項研究,他目前在牛津大學工作,他認為可以通過擴大數據集(包括管理算法、去身份化的病人筆記和教科書)對模型進行訓練,從而進一步完善模型。這就要求在擴大信息來源的數量和性質的同時,確保信息保持良好的質量,在兩者之間取得"棘手的平衡"。
潛在的臨床用途可能是對病人進行分流,或在專業醫護人員有限的情況下使用。有證據表明,人工智能有助於診斷,例如能發現可能被醫生遺漏的早期乳腺癌,因此在臨床環境中部署人工智能的興趣大增。與此同時,考慮到錯誤診斷可能對患者造成的傷害,研究人員也在努力解決如何控制嚴重風險的問題。
倫敦大學學院人工醫學智能教授皮爾斯-基恩(Pearse Keane)說,這項最新研究"令人興奮",其利用人工智能為專傢的表現設定基準的想法"超級有趣"。基恩也是倫敦莫菲爾德眼科醫院的成員,他也認為,在將這些技術引入臨床之前,還需要做更多的工作。
他列舉自己去年研究中的一個例子:向一個大型語言模型詢問有關眼部黃斑變性的問題,結果該模型在回答中給出根本是"杜撰"出來的參考資料。"我們必須在對這項技術的興奮和潛在的巨大利益之間取得平衡.....至少要有謹慎和懷疑。"他說。