大規模言語モデル(LLM)は単語を出力するたびに、「世界状態の維持」と「次のトークンの予測」という2つの処理を同時に行っている。コーネル大学の研究チームは、これまで不可避とされてきたこの2つの処理の混在が設計上の欠陥であると指摘し、これらをアーキテク ...