에이전트 벤치마크 FoodTruck Bench에서 DeepSeek V4 Pro가 GPT-5.2와 사실상 동등한 성능을 기록했다. GPT-5.2 테스트 대비 10주 만에, 비용은 약 17배 저렴하다.
#llm
RSS Feed진화생물학자 리처드 도킨스가 Claude와 3일간 대화한 뒤 의식이 있다고 선언하고 '클라우디아'라 이름 붙였다. AI 유창성을 의식의 증거로 삼는 논리에 커뮤니티가 강하게 반박했다.
OpenAI가 ChatGPT 기본 모델을 GPT-5.5 Instant으로 교체했다. 의료·법률·금융 등 고위험 분야에서 환각 오류가 52.5% 줄었고, 응답 길이도 30.2% 단축됐다.
카르파시가 Sequoia Ascent 2026 대담의 주요 내용을 공유했다. LLM은 기존 업무를 빠르게 처리하는 것을 넘어 이전에는 불가능했던 완전히 새로운 종류의 앱과 경제를 가능하게 한다는 주장이다.
대규모 통제 이력서 실험 연구에 따르면, LLM은 자신이 생성한 이력서를 인간이 작성하거나 다른 모델이 생성한 것보다 일관되게 더 선호한다. 자기 편향(self-preference bias)은 67~82% 범위로, 같은 LLM을 사용한 지원자가 그렇지 않은 지원자보다 단가 23~60% 더 많이 최종 후보에 오른다.
DeepSeek이 DeepSeek-V4-Pro와 V4-Flash 두 가지 모델을 공개했다. Pro는 1.6조 파라미터(활성 49B)의 Mixture-of-Experts 구조로, 현재까지 공개된 오픈웨이트 모델 중 최대 규모다. 가격은 GPT-5.4와 Gemini 3.1 Pro 대비 절반 이하로, 비용 효율성이 핵심 차별점이다.
저명 학술지 Science에 게재된 새 연구에 따르면 최신 LLM이 실제 응급실 데이터와 수백 명의 의사 비교 실험에서 진단, 응급 분류, 다음 처치 결정 등 임상 과제 전반에서 인간 의사와 동등하거나 상회하는 성과를 보였다. 연구자들은 AI가 의사를 대체하는 것이 아니라 협력적 돌봄 모델로 통합돼야 한다고 강조했다.
중요한 이유는 리더보드 순위가 더 싼 학습비와 함께 나왔다는 점이다. Baidu는 ERNIE 5.1 Preview가 LMArena Text에서 글로벌 13위, 중국 랩 1위를 기록했고, 비슷한 모델 대비 사전학습 비용은 약 6% 수준이라고 적었다.
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
LocalLLaMA는 이 질문을 샤워실 잡담으로 넘기지 않았다. 스레드는 왜 오늘의 LLM이 잠재 벡터에 reasoning을 숨기지 않고, 여전히 언어 형태로 드러내는지에 대한 진짜 논쟁으로 번졌다.
중요한 점은 open model 진영에서 긴 context와 실제 배포용 구성을 함께 내놓는 경우가 드물다는 데 있다. DeepSeek는 1M context, 1.6T·49B Pro, 284B·13B Flash라는 숫자를 한 번에 제시했다.