Hacker Newsで注目: 巨大CIログ基盤に対するSQL中心LLMデバッグ手法

Original: We gave terabytes of CI logs to an LLM View original →

Read in other languages: 한국어English
LLM Feb 28, 2026 By Insights AI (HN) 1 min read 1 views Source

Hacker Newsで共有されたポイント

Mendralの投稿 “LLMs Are Good at SQL. We Gave Ours Terabytes of CI Logs.” は、クロール時点で191ポイント・97コメントを獲得した。主張は概念論ではなく運用実績で、記事ではエージェントがSQLを自動生成し、3週間前のdependency bumpがflaky testの起点であることを数秒で特定したと説明している。

設計上の中核は「狭いAPIよりSQL」

記事によると、チームは固定的なツールAPIではなく、組織スコープで制限したSQLインターフェースを採用した。理由は、想定済みの質問だけでなく未知の切り口にも対応できるためである。扱う規模は週あたり約15億行のCIログと70万ジョブ。データはClickHouseに集約され、圧縮率は35:1とされる。

さらに、8,534セッション・52,312クエリの観測値も公開された。記述では、まずjob metadataで広く探索し、次にraw log linesへ掘り下げる二段構えが多い。遅延の中央値はmetadata 20ms、raw logs 110msで、超大規模スキャンは時間が伸びるものの実行可能という整理だ。

ストレージ戦略と実務的示唆

特徴的なのは強い非正規化で、1ログ行に48列のメタデータを持たせている点である。行指向DBでは高コストだが、列指向圧縮では反復値が効き、記事では5.31 TiBの非圧縮データが154 GiBに収まると報告している。並び順キー、bloom/ngram系スキップインデックス、materialized viewを組み合わせた設計が、探索型クエリの速度維持に寄与したとしている。

エンジニアリング上の結論

この事例が示すのは、LLMデバッグ自動化の成果はプロンプト最適化だけでなく、データ基盤設計に強く依存するという点だ。表現力の高いクエリ面を保ちつつテナント境界を厳格化し、履歴横断の探索に耐える観測基盤を先に整備することが、再現性ある運用に直結する。

Hacker News thread | Original article

Share:

Related Articles

LLM sources.twitter 5d ago 1 min read

GitHubは2026年3月5日、GPT-5.4がGitHub Copilotで一般提供となり、順次展開中だと発表した。初期テストでは成功率の向上に加え、複雑でツール依存の作業における論理推論と実行力の改善を確認したとしている。

LLM 4d ago 1 min read

GitHub Copilot CLIがgenerally availableとなり、標準のCopilot subscriberがterminalでCopilotを使えるようになった。GitHubはこれをnext edit suggestions、MCP対応agent mode、background agents、Pro+ plan拡張と合わせて発表している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.