新研究發現OpenAI的o1-preview AI模型在診斷棘手醫療案例方面優於醫生

鳳凰科技 2024-12-26 01:34:30 2

IT之家 12 月 25 日訊息，由哈佛醫學院和斯坦福大學組成的科研團隊，在醫學診斷領域深入評估 OpenAI 的 o1-preview 模型，發現其比人類醫生更擅長診斷棘手的醫療案例。

根據研究報告，o1-preview 正確診斷了 78.3% 的測試案例，在 70 個特定案例的對比測試中，準確率更是高達 88.6%，顯著優於其前身 GPT-4 的 72.9%。

使用醫學推理質量評估標準量表 R-IDEA，o1-preview 在 80 個案例中取得了 78 個滿分。相比之下，經驗豐富的醫生僅在 28 個案例中獲得滿分，住院醫生則僅為 16 例。

在 25 位專家設計的複雜案例中，o1-preview 得分高達 86%，是使用 GPT-4 的醫生（41%）和使用傳統工具的醫生（34%）的兩倍多。

研究人員承認該測試存在侷限性，部分測試案例可能包含在 o1-preview 的訓練資料中，且測試主要集中於系統單獨工作，並未充分考慮其與人類醫生協同工作的場景；此外 o1-preview 建議的診斷測試成本高昂，在實際應用中存在侷限性。

研究發現 openai的o1 preview ai 模型診斷棘手醫療案例方面優於醫生