OpenAIは、計算生物学者が日常的に行う複雑な判断を伴う分析作業を評価する新しい研究レベルのベンチマーク「GeneBench-Pro」を公開した。同社の最も高性能なモデルである「GPT-5.6 Sol」であっても、最大計算量を用いた場合の正解率は3割未満にとどまったと報告されている。この結果は、現在のAIの能力と、自律的な科学分析の実行との間に依然として大きな隔たりがあることを示している。 ■「 ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する