Hacker Newsで注目のagent-sat、MaxSAT解法を自律的に改良するAIシステム
Original: Autoresearch for SAT Solvers View original →
2026年3月19日にHacker Newsへ投稿された agent-sat は、このクロール時点で118 pointsと10 commentsを集めていた。projectはweighted MaxSAT向けの自律AIシステムを名乗っている。weighted MaxSATは、すべての hard clause を満たしながら soft clause の違反コストを最小化する最適化問題だ。重要なのは、単一の heuristic を公開して終わるのではなく、agentが実験を回し続けながら solver stack を改善していく設計になっている点にある。
READMEによると、agentは program.md の指示を読み、過去実行で蓄積した知識を expert.md から取り込み、library/ にある道具を確認したうえで、2024 MaxSAT Evaluation main anytime weighted track の229インスタンスに solver を走らせる。repositoryは並列実行も前提としており、複数のagentが別々のmachineで同じ git history を pullし、新しい experiment、best solution、code を pushして次の実行へ引き継げる。
repositoryが示している現時点の成果
- 229 benchmark instancesのうち220件を解決
- 30件でcompetition bestと同じ最適値に到達
- 5件で2024 competition bestを上回る結果
- 1件は既知解のなかった novel solve として記載
このprojectが面白いのは、単なる「AI agentがcodeを書いた」デモで終わっていないからだ。MaxSATはformalでbenchmark可能な問題で、各runのコストを数値で比較でき、competitionのreference結果も公開されているため、改善を独立に検証しやすい。READMEには具体例もあり、switchingactivity_74 ではcompetition bestより37.5%良い結果、pseudoBoolean mod010 では novel solve を報告している。つまり agent-sat は chat interface というより、探索手順、実験履歴、solver code を同じrepositoryで継続的に進化させる persistent research loop に近い。
制約も明記されている。projectは低い parallelism、難しいinstanceへの tunnel vision、長いsessionが想定より早く終わる傾向を弱点として挙げている。これは solver の質だけでなく agent orchestration の質も依然として重要だという意味でもある。それでも Hacker News で関心を集めた理由は明快だ。agent-sat は、AI agent が anecdotal demo ではなく、採点可能な組合せ最適化問題に対して測定可能で再現可能な改善を試みている具体例だからだ。
Sources: agent-sat on GitHub, Hacker News discussion, 2024 MaxSAT Evaluation
Related Articles
OpenAI・DeepMind・Meta出身の研究者が設立したRecursive Superintelligenceが、NVIDIAとGVの出資を受け、評価額46.5億ドルで6億5,000万ドルの資金を調達した。
Hugging FaceのエンジニアがMetaによる買収後に放置されたPapersWithCodeを復活させるプロジェクトを開始し、paperswithcode.coとして新サイトを立ち上げた。AIエージェントを活用した論文解析と自動リーダーボード生成が特徴だ。
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。