Claude Opus 4.7, NMR 20개 화합물 평가에서 전문 도구와 정면 비교
Original: Claude Opus 4.7 Beats NMR Software on Parts of Chemistry Benchmark View original →
Claude의 화학 벤치마크가 겨냥한 병목
NMR 스펙트럼 해석은 합성화학에서 시간이 많이 드는 병목이다. 분자는 현미경으로 직접 보는 대상이 아니기 때문에, 연구자는 스펙트럼의 피크를 원자 위치와 하나씩 맞춰 구조를 확정한다. Anthropic은 최근 연구 글과 X 게시물에서 Claude Opus 4.7을 이 작업에 투입한 결과를 공개했다.
"Opus 4.7 matches—and on some tasks beats—dedicated NMR software."
해당 트윗은 2026년 6월 5일 19:27 UTC에 올라왔고, FxTwitter 기준 조회수 36만 회 이상과 좋아요 3,300개 이상을 기록했다. Anthropic 계정은 Claude 제품 소식뿐 아니라 안전성, 해석가능성, 모델 평가 연구를 자주 올리는 공식 채널이라, 이번 글은 단순 홍보보다 연구 벤치마크 성격이 강하다.
연구 글의 핵심은 20개 화합물이다. Anthropic은 모델 학습 컷오프 이후 ChemRxiv 프리프린트에서 고른 신규 화합물 20개를 사용해 Opus 4.7, Opus 4.6, Sonnet 4.6을 ChemDraw 및 MestReNova와 비교했다. 수소 NMR에서는 Opus 4.7의 평균 오차가 약 ±0.079 ppm으로 허용 범위의 절반보다 작았고, 탄소 NMR에서는 Opus 4.7과 MestReNova가 각각 ±1.37 ppm, ±1.48 ppm으로 사실상 비슷했다.
더 흥미로운 부분은 역방향 문제다. 기존 도구는 보통 구조를 넣고 스펙트럼을 예측하는 순방향 작업에 강하지만, 연구자는 실제로 스펙트럼에서 구조를 거꾸로 찾아야 하는 경우가 많다. Anthropic은 Opus 4.7에 15개 구조 규명 문제를 세 번씩 풀게 했고, 쉬운 8개 구조는 스펙트럼과 분자식만으로 매번 맞혔다고 설명했다.
다음 관전점은 범위와 재현성이다. 이번 평가는 20개 순방향 화합물과 15개 역방향 문제라는 작은 세트에 머문다. 실제 연구실 도입을 판단하려면 더 다양한 스캐폴드, 2D NMR, 잡음 있는 실험 데이터, 폐쇄형 소프트웨어와의 블라인드 비교가 필요하다.
Related Articles
AI의 바이오 역량 논쟁에 처음으로 꽤 단단한 숫자가 붙었다. Anthropic은 Claude를 실제 생물 데이터 기반 99문항에 투입했고, 전문가도 막힌 23문항 가운데 최근 모델이 약 30%를 풀었다고 적었다.
Anthropic는 2026년 3월 23일 AI가 연구 관행과 scientific discovery를 어떻게 바꾸는지에 초점을 맞춘 Science Blog를 시작한다고 밝혔다. 새 블로그는 feature story, workflow guide, field note를 통해 Anthropic의 AI-for-science 전략을 더 지속적인 프로그램으로 보여 준다.
Anthropic는 2026년 3월 23일 모든 long-horizon task가 다수 agent 분할에 적합한 것은 아니라고 밝혔다. 연결된 연구 글에서 Anthropic는 Claude Opus 4.6, persistent memory, orchestration pattern, test oracle을 활용해 differentiable cosmological Boltzmann solver를 구현하는 방식을 설명한다.