#llm-research

LLM Reddit Mar 13, 2026 1 min read

r/MachineLearning, LLM benchmark 논문이 발표될 때쯤 이미 낡아버리는지 논쟁

r/MachineLearning의 한 고득점 토론은 proprietary model이 매달 바뀌고 이전 version이 사라지는 상황에서 benchmark 논문이 무엇을 남기는지 묻는다. 가장 설득력 있었던 답변은 ranking은 빨리 낡지만, dataset과 failure case는 오래 남아 실전 eval asset이 될 수 있다는 것이었다.

#benchmarks #evaluation #llm-research

LLM Hacker News Mar 13, 2026 2 min read

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목

Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.

#transformers #inference #llm-research

LLM Reddit Mar 11, 2026 1 min read

r/MachineLearning이 끌어올린 2x 4090 기반 LLM layer duplication 실험

고득점 r/MachineLearning 글은 David Noel Ng의 장문 blog를 가리키며, Qwen2-72B의 중간 7개 layer block을 복제하는 방식만으로 leaderboard 상단에 올랐다는 주장과 circuit-like 구조 해석을 다시 불러냈다.

#llm-research #qwen #leaderboard