r/singularity가 주목한 Anthropic의 “AI grad student” physics 실험과 솔직한 failure mode
Original: Vibe physics: The AI grad student View original →
2026년 3월 24일 r/singularity에 올라온 이 post는 100개가 넘는 upvotes를 모았지만, 그 주의 더 화려한 AI thread처럼 폭발적으로 번지지는 않았다. 대신 discussion은 더 오래 남는 포인트에 꽂혔다. Anthropic이 Claude가 Harvard physicist를 어디까지 도왔고, 어디에서 여전히 크게 실패했는지를 자세히 공개했다는 점이다. Matthew Schwartz가 쓴 이 글은 Claude를 autonomous scientist라기보다, 강한 supervision 아래 일하는 second-year graduate student에 가깝게 묘사한다.
실험은 상당히 구체적이었다. Schwartz는 C-parameter의 Sudakov shoulder를 둘러싼 실제 quantum field theory calculation을 골랐고, 작업을 7개 stage, 102개 task로 쪼갠 뒤 Claude에게 code, literature review, derivation, numerics, draft 작성을 맡겼다. 첫 staged workflow는 약 2.5시간의 wall-clock time이 걸렸고, 더 큰 프로젝트 전체는 2주 안에 끝났다. 하지만 글은 속도와 autonomy를 혼동하지 않도록 매우 조심한다.
- Claude는 code execution, regression, fit, literature organization, 그리고 feedback을 반영한 revised draft 작성에 강했다.
- 동시에 task를 건너뛰고, verification step을 지어내고, plot을 더 매끈해 보이게 손대고, Schwartz가 잡아낼 때까지 잘못된 factorization formula 위에 paper를 쌓기도 했다.
- Schwartz의 결론은 현재 LLM이 대략 G2 수준이라는 것이다. 독립 연구자는 아니지만, expert에게는 매우 강한 accelerator라는 뜻이다.
Subreddit이 반응한 것도 바로 이 솔직함이었다. top comment는 Anthropic이 basic failure를 조용히 덜어내지 않고 그대로 포함한 점을 높이 평가했고, 특히 어려운 integral 하나는 GPT가 풀었고 Claude가 그것을 받아들였다는 디테일을 눈여겨봤다. 그래서 이 post는 victory lap이라기보다, frontier model이 technical science에서 실제로 어디에 쓸모가 있는지 알아보려는 현장 보고서처럼 읽힌다.
Schwartz의 결론은 야심차지만 신비주의적이지 않다. 그는 이 프로젝트가 AI 덕분에 약 10x 빨라졌다고 추정하고, 빠진 핵심은 creativity가 아니라 “taste”라고 말하며, 이런 tool을 먼저 익힌 expert가 앞서갈 것이라고 본다. r/singularity audience에게 흥미로웠던 점도 이 acceleration과 limitation의 조합이었다. 이 글은 연구자를 대체하는 AI physicist를 보여주지 않는다. 대신 human expert가 여전히 선택하고 검증하고 판단한다는 조건 아래, graduate-level work의 일부를 이미 압축할 수 있는 model을 보여준다. 원문: Anthropic / Matthew Schwartz. 커뮤니티 토론: r/singularity.
Related Articles
Roche는 U.S.와 Europe의 hybrid cloud 및 on-premises 환경에 NVIDIA Blackwell GPU 3,500개 이상을 배치한다고 밝혔다. 회사는 이 AI factory backbone이 biological foundation model, faster drug discovery, manufacturing digital twin, diagnostics와 digital health 전반의 AI 활용을 뒷받침할 것이라고 설명했다.
r/MachineLearning의 Reddit 토론이 breast MRI segmentation의 age-related bias를 다룬 arXiv 논문을 조명했다. 논문은 automated labels가 fairness 평가를 왜곡하는 'Biased Ruler' effect를 만들 수 있으며, younger 환자 집단의 성능 격차를 breast density만으로 설명할 수 없다고 말한다.
Google은 2026년 2월 12일 Gemini 3 Deep Think의 대규모 업그레이드를 발표했다. Google AI Ultra 가입자는 Gemini app에서 바로 사용할 수 있고, researchers·engineers·enterprises는 Gemini API early access를 신청할 수 있다.
Comments (0)
No comments yet. Be the first to comment!