#model-evaluation

LLM X/Twitter Jul 14, 2026 1 min read

Claude 30만 대화 분석, 언어와 모델별 가치 성향 차이를 수치화한 Anthropic 연구

Claude의 답변 성향이 모델과 언어에 따라 다르게 나타난다는 점이 30만 건 이상의 익명 대화 분석으로 정리됐다. Anthropic은 따뜻함·엄밀함 등 4개 축으로 차이를 측정해 배포 후 평가 지표로 쓰려 한다.

#anthropic #claude #model-evaluation

LLM Reddit Mar 30, 2026 2 min read

r/MachineLearning이 끌어올린 94개 LLM 엔드포인트 비교, 오픈 모델 격차는 얼마나 좁혀졌나

3월 1일 r/MachineLearning에서 주목받은 벤치마크 정리는 94개 LLM 엔드포인트를 비교하며 오픈 모델이 proprietary 최상위권에 거의 한 자릿수 격차로 따라붙었다고 주장했다. 핵심 메시지는 이제 모델 선택이 “누가 제일 똑똑한가”보다 가격, 속도, 배포 유연성까지 함께 보는 운영 문제로 바뀌었다는 점이다.

#llm-benchmarks #open-source #model-evaluation

LLM Reddit Mar 7, 2026 2 min read

LocalLLaMA PSA: 새 모델 평가는 편의 래퍼보다 기본 런타임부터 맞추라는 조언

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

#local-llm #model-evaluation #llama-cpp