委任ワークフローでLLMが文書の25%を損傷——研究が警告

Original: LLMs Corrupt Your Documents When You Delegate View original →

Read in other languages: 한국어English
LLM May 10, 2026 By Insights AI (HN) 1 min read Source

概要

Microsoftリサーチが発表した論文「LLMs Corrupt Your Documents When You Delegate」は、AIアシスタントへの長期的な作業委任というパラダイムの根本的な欠陥を明らかにしている。ユーザーが複雑な文書編集タスクをLLMに委任すると、モデルは無声のままエラーを導入し、時間の経過とともに累積していく。

DELEGATE-52ベンチマーク

研究チームは、コーディング、結晶学、楽譜表記など52の専門分野にわたる長期委任ワークフローをシミュレートするDELEGATE-52を作成した。19のLLMをテストした結果、最先端モデル(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)でさえ、長いワークフロー終了時に文書内容の平均25%を損傷させることがわかった。エージェント型ツール使用もDELEGATE-52の性能を改善しない。

なぜ危険か

問題は沈黙にある。LLMはエラーを示さず、長いセッションにわたって深刻なエラーを蓄積する。AIが専門的な複雑タスクを自律的に処理するエージェント型パラダイムが進む中、この研究は現在のLLMが信頼できる委任者になる準備ができていないことを示している。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment