卒業研究発表

日本理学療法士国家試験におけるGPT-3.5とGPT-4の能力評価

2023年度 【理学療法士学科 夜間部】 口述演題

背景

OpenAI社は,GPT-4が米国司法試験で上位10%の成績を収めたことを公表している.また,医療分野におけるAIの可能性も多いに期待されている.Takagiらは第117回日本医師国家試験においてGPT-3.5の正答率が50.8%,GPT-4の正答率が79.9%であったと報告している.

目的

日本理学療法士国家試験を用いてGPT-3.5とGPT-4の理学療法における能力を評価することを目的とした.

方法

第56回から第58回日本理学療法士国家試験問題からChatGPTが認識可能な513問を抽出し,GPT-3.5およびGPT-4に解答させて両者の正答率を比較した.

結果

GPT-3.5の正答率が47.2%,GPT-4の正答率が73.7%であり,その差は26.5%(p<0.001)であった.一方,運動学の正答率はGPT-3.5が24.1%,GPT-4が31%と両者で低い正答率となった.

考察

多くの分野でGPT-4の正答率が上昇する中,運動学など上昇率が悪い分野があり,これらは事前学習のパラメーターを増加するだけでは解決しない可能性がある.またハルシネーションと呼ばれる見当違いの回答をすることがあり,弱点を理解した上での使用が推奨される.
1)GPT-4 Technical Report.OpenAI.Mar 2023.URL: https://arxiv.org/pdf/2303.08774v3.pdf
2)Takagi S,et al.:Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination:Comparison Study.JMIR Med Educ.9,2023.

記事一覧
大阪医療福祉専門学校 TOP