委任ワークフローでLLMが文書の25%を損傷——研究が警告

Original: LLMs Corrupt Your Documents When You Delegate View original →

Read in other languages: 한국어 English

LLM May 10, 2026 By Insights AI (HN) 1 min read Source

概要

Microsoftリサーチが発表した論文「LLMs Corrupt Your Documents When You Delegate」は、AIアシスタントへの長期的な作業委任というパラダイムの根本的な欠陥を明らかにしている。ユーザーが複雑な文書編集タスクをLLMに委任すると、モデルは無声のままエラーを導入し、時間の経過とともに累積していく。

DELEGATE-52ベンチマーク

研究チームは、コーディング、結晶学、楽譜表記など52の専門分野にわたる長期委任ワークフローをシミュレートするDELEGATE-52を作成した。19のLLMをテストした結果、最先端モデル（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）でさえ、長いワークフロー終了時に文書内容の平均25%を損傷させることがわかった。エージェント型ツール使用もDELEGATE-52の性能を改善しない。

なぜ危険か

問題は沈黙にある。LLMはエラーを示さず、長いセッションにわたって深刻なエラーを蓄積する。AIが専門的な複雑タスクを自律的に処理するエージェント型パラダイムが進む中、この研究は現在のLLMが信頼できる委任者になる準備ができていないことを示している。

#llm #research #ai-safety #delegation #benchmark

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

DeepSeek V4 Pro、エージェントベンチマークでGPT-5.2と同等性能――17倍安く10週後に到達

FoodTruck BenchでDeepSeek V4 ProがGPT-5.2と実質同等の性能を記録した。GPT-5.2のテストから約10週後、コストは約17分の1での達成となった。

#deepseek #benchmark #llm

3

LLM Reddit 2h ago 1 min read

フィールズ賞数学者「GPT-5.5 Proが博士レベルの証明を生成」——数学研究に危機迫る

フィールズ賞受賞数学者のTimothy Gowersが、ChatGPT 5.5 Proで未解決の数学問題に挑戦し、約1時間で博士レベルの証明を生成させた。現在のAI進歩速度では数学研究が近く危機を迎えると警告している。

#chatgpt #mathematics #llm

LLM X/Twitter Apr 16, 2026 1 min read

Nature論文、LLMのtraitとmisalignmentが無関係な数列からも伝わると示した

synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。

#ai-safety #llm #distillation

9

Comments (0)

No comments yet. Be the first to comment!