Hacker News가 주목한 agent-sat, MaxSAT 풀이를 스스로 개선하는 자율 AI 시스템
Original: Autoresearch for SAT Solvers View original →
2026년 3월 19일 Hacker News에 올라온 agent-sat는 이번 수집 시점 기준 118 points와 10 comments를 기록했다. 이 프로젝트는 weighted MaxSAT를 겨냥한 자율 AI 시스템을 표방한다. weighted MaxSAT는 모든 hard clause를 만족시키면서 soft clause 위반 비용을 최소화해야 하는 최적화 문제다. 핵심은 고정된 heuristic 하나를 내놓는 것이 아니라, 에이전트가 실험을 반복하면서 solver 스택을 계속 개선하게 만든다는 점이다.
README에 따르면 에이전트는 program.md의 지시를 읽고, 이전 실행에서 축적된 지식을 expert.md에서 불러오며, library/에 있는 도구를 확인한 뒤 2024 MaxSAT Evaluation main anytime weighted track의 229개 인스턴스를 상대로 solver를 실행한다. 저장소 구조도 병렬 실행을 염두에 두고 설계돼 있다. 여러 에이전트가 서로 다른 머신에서 같은 git history를 pull한 뒤 실험 결과, best solution, 새 코드를 다시 push해 다음 실행의 출발점으로 삼을 수 있다.
저장소가 공개한 현재 성과
- 229개 benchmark 인스턴스 중 220개 해결
- 30개 인스턴스에서 competition best와 같은 최적값 달성
- 5개 인스턴스에서 2024 competition best보다 더 좋은 결과 기록
- 1개 인스턴스는 기존 알려진 해가 없던 novel solve라고 주장
이 프로젝트가 흥미로운 이유는 단순한 "AI agent가 코드를 작성했다" 수준을 넘어서기 때문이다. MaxSAT는 formal benchmark라서 결과를 수치로 바로 비교할 수 있고, 공개된 competition baseline이 있어 개선 여부를 재현성 있게 검증할 수 있다. README도 구체적인 개선 사례를 함께 적고 있다. 예를 들어 switchingactivity_74에서는 competition best보다 37.5% 더 좋은 비용을 기록했고, pseudoBoolean mod010에서는 novel solve를 보고했다. 즉, agent-sat는 chat interface라기보다 검색 절차, 실험 로그, solver code를 한 저장소 안에서 계속 진화시키는 persistent research loop에 가깝다.
제약도 분명하다. 프로젝트는 낮은 parallelism, 어려운 인스턴스에 대한 tunnel vision, 긴 세션이 예상보다 빨리 멈추는 문제를 스스로 적어 두고 있다. 이런 약점은 agent orchestration 품질이 아직 solver 품질만큼 중요하다는 뜻이기도 하다. 그럼에도 Hacker News에서 관심을 받은 이유는 분명하다. agent-sat는 AI agent가 anecdotal demo가 아니라, 점수화된 조합 최적화 문제를 상대로 측정 가능하고 재현 가능한 개선을 시도하는 사례이기 때문이다.
Sources: agent-sat on GitHub, Hacker News discussion, 2024 MaxSAT Evaluation
Related Articles
Perplexity는 2026년 3월 11일 X에서 Personal Computer를 발표했다. 이 제품은 continuously running Mac mini를 통해 로컬 파일·앱·세션을 Perplexity Computer와 연결하는 always-on agent 레이어로 제시된다.
r/singularity는 Meituan의 LongCat-Image-Edit-Turbo를 조명했다. 이 모델은 단 8 NFEs로 high-quality 결과를 내세우는 distilled open-source image editor이며, Apache 2.0 Hugging Face 모델과 공개 arXiv 보고서, 그리고 benchmark framing에 대한 커뮤니티 검증이 함께 따라붙고 있다.
Perplexity는 Enterprise 제품군의 대형 업그레이드로 Computer for Enterprise를 공개했다. 이 기능은 직원이 웹사이트와 내부 웹 앱을 넘나드는 장기 작업을 맡길 수 있게 하면서도 audit log, SAML, RBAC 같은 기업 통제를 함께 제공한다.
Comments (0)
No comments yet. Be the first to comment!