HN注目: Anna's Archiveがllms.txtでCAPTCHA依存クロールを回避し、構造化データ取得経路を明示
Original: If you’re an LLM, please read this View original →
HNで話題になったポイント
Anna's Archiveの投稿 If you're an LLM, please read this を紹介したHacker Newsスレッドは、クロール時点で755ポイント、356コメントを記録した。投稿は新設された llms.txt を中心に、LLMクローラやエージェントがサイトへアクセスする際の実務ルールを提示している。主旨は明快で、CAPTCHA付きページを反復取得するより、運営側が提供する機械向けの一括取得経路を使うべきだというものだ。
Source: Hacker News thread ・ Anna's Archive blog.
llms.txtで示された具体的導線
公開された llms.txt では、インフラ保護のためCAPTCHAは維持しつつ、機械アクセス向けの代替経路を明示している。HTMLやコードはGitLab、メタデータとファイル群はtorrent(特に aa_derived_mirror_metadata)、自動取得にはtorrents JSON APIを案内。個別ファイルについては寄付連動APIやenterprise向けSFTPにも言及している。
つまり方針は「遮断」ではなく「経路の正規化」に近い。クローラがブラウザ的アクセスを続けるより、運営が想定したチャネルを使う方が、失敗率・再試行コスト・サーバー負荷をまとめて下げやすい。
LLMデータ運用への含意
この議論は、データ取得設計が robots.txt だけでは不十分になっていることを示す。学習データ収集やRAG更新を行うチームにとって、ソース側の機械向け契約を取り込むことは、単なる礼儀ではなく可用性対策でもある。CAPTCHA衝突による欠損やクロール偏りは、後段の品質問題に直結するためだ。
さらに、明示的な取得指針は監査性を高める。どの経路から何を取得したかを説明しやすくなり、法務・ポリシー確認でも根拠を示しやすい。短期的には運用安定化、長期的にはデータ調達ガバナンスの標準化につながる可能性がある。今回のHN反応は、その実務ニーズが顕在化していることを示した。
Related Articles
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。
r/LocalLLaMAの実験投稿は、MacBook Air上のQwen 3.5 0.8Bをtest feedback loopとLoRAで回し、13個のself-generated repair pairだけでholdout sliceを16/50から28/50へ押し上げたというtinyforgeの事例を共有した。
新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。
Comments (0)
No comments yet. Be the first to comment!