HN注目: Anna's Archiveがllms.txtでCAPTCHA依存クロールを回避し、構造化データ取得経路を明示

HNで話題になったポイント

Anna's Archiveの投稿 If you're an LLM, please read this を紹介したHacker Newsスレッドは、クロール時点で755ポイント、356コメントを記録した。投稿は新設された llms.txt を中心に、LLMクローラやエージェントがサイトへアクセスする際の実務ルールを提示している。主旨は明快で、CAPTCHA付きページを反復取得するより、運営側が提供する機械向けの一括取得経路を使うべきだというものだ。

Source: Hacker News thread ・ Anna's Archive blog.

llms.txtで示された具体的導線

公開された llms.txt では、インフラ保護のためCAPTCHAは維持しつつ、機械アクセス向けの代替経路を明示している。HTMLやコードはGitLab、メタデータとファイル群はtorrent（特に aa_derived_mirror_metadata）、自動取得にはtorrents JSON APIを案内。個別ファイルについては寄付連動APIやenterprise向けSFTPにも言及している。

つまり方針は「遮断」ではなく「経路の正規化」に近い。クローラがブラウザ的アクセスを続けるより、運営が想定したチャネルを使う方が、失敗率・再試行コスト・サーバー負荷をまとめて下げやすい。

LLMデータ運用への含意

この議論は、データ取得設計が robots.txt だけでは不十分になっていることを示す。学習データ収集やRAG更新を行うチームにとって、ソース側の機械向け契約を取り込むことは、単なる礼儀ではなく可用性対策でもある。CAPTCHA衝突による欠損やクロール偏りは、後段の品質問題に直結するためだ。

さらに、明示的な取得指針は監査性を高める。どの経路から何を取得したかを説明しやすくなり、法務・ポリシー確認でも根拠を示しやすい。短期的には運用安定化、長期的にはデータ調達ガバナンスの標準化につながる可能性がある。今回のHN反応は、その実務ニーズが顕在化していることを示した。

HN注目: Anna's Archiveがllms.txtでCAPTCHA依存クロールを回避し、構造化データ取得経路を明示

HNで話題になったポイント

llms.txtで示された具体的導線

LLMデータ運用への含意

Related Articles

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

KV cache量子化でGemma 4が先に崩れる理由　LocalLLaMAが注目

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Comments (0)

Leave a Comment

Related Articles

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

KV cache量子化でGemma 4が先に崩れる理由　LocalLLaMAが注目
LocalLLaMAがこの投稿に反応したのは、q8_0 KV cacheはだいたい安全という前提が崩れたからだ。Gemma 4はQwen 3.6よりずっと早く劣化し、議論はすぐにSWA cacheと長文contextの影響へ向かった。

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。

HNで話題になったポイント

llms.txtで示された具体的導線

LLMデータ運用への含意

Related Articles

DiracがTerminalBench首位 HNが食いついたのは点数よりトークン設計

KV cache量子化でGemma 4が先に崩れる理由 LocalLLaMAが注目

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Comments (0)

Leave a Comment

DiracがTerminalBench首位　HNが食いついたのは点数よりトークン設計

KV cache量子化でGemma 4が先に崩れる理由　LocalLLaMAが注目