#software-engineering

RSS 피드

LLM Hacker News Jul 6, 2026 1 min read

깨끗한 코드가 coding agent 비용을 줄이는 이유

Pass rate보다 token과 탐색 비용이 논점이다. HN 토론은 “성공률은 같아도 작업 흔적은 달라진다”는 지점을 파고들었다.

#coding-agents #software-engineering #maintainability

LLM Hacker News Jul 2, 2026 1 min read

Senior SWE-Bench, agent 평가가 '시니어'라는 말에 걸린 이유

점수보다 논점이 더 흥미롭다. HN 댓글은 새 benchmark 자체보다 “시니어 엔지니어”를 어떻게 재현할 수 있느냐에 모였다.

#llm #agents #benchmark

AI Hacker News May 16, 2026 1 min read

기업 전체가 'AI 심리 착란' 상태에 빠진 것 같다는 경고

HashiCorp 창업자 Mitchell Hashimoto가 X에 올린 글이 HN에서 1,650점을 기록하며 화제가 됐다. AI가 버그를 빠르게 고쳐준다는 믿음이 시스템 전체의 취약성을 감추고 있다는 경고다.

#ai-culture #enterprise-ai #software-engineering

AI Hacker News May 6, 2026 1 min read

바이브 코딩과 에이전틱 엔지니어링의 경계가 흐릿해지고 있다

Simon Willison이 바이브 코딩과 에이전틱 엔지니어링의 경계가 자신의 작업에서 이미 흐릿해지기 시작했다는 불편한 깨달음을 공유했다. AI 코딩 에이전트 신뢰 문제의 핵심을 짚는다.

#vibe-coding #ai-coding #software-engineering

LLM X/Twitter May 3, 2026 1 min read

카르파시의 Sequoia 강연: LLM이 여는 세 가지 새로운 지평

카르파시가 Sequoia Ascent 2026 대담의 주요 내용을 공유했다. LLM은 기존 업무를 빠르게 처리하는 것을 넘어 이전에는 불가능했던 완전히 새로운 종류의 앱과 경제를 가능하게 한다는 주장이다.

#karpathy #llm #agents

AI Hacker News Apr 15, 2026 1 min read

HN이 공감한 한마디, 멀티에이전트 코딩은 결국 분산 시스템 문제다

HN이 이 글에 반응한 이유는 벤치마크보다도 현업의 체감과 맞아떨어졌기 때문이다. 멀티에이전트 코딩의 병목은 모델 IQ보다 조정과 합의에 가깝다는 주장에 엔지니어들이 바로 자기 경험을 얹었다.

#agents #distributed-systems #software-engineering

AI Hacker News Apr 3, 2026 1 min read

Hacker News가 주목한 Cursor 3, coding agent를 위한 unified workspace

Cursor 3는 local·cloud agent, multi-repo context, PR handoff를 하나의 interface로 묶어 AI coding을 multi-agent orchestration 문제로 재정의한다.

#cursor #coding-agents #developer-tools

AI Hacker News Mar 28, 2026 2 min read

Hacker News가 주목한 Reco의 JSONata AI 재구현, 회사는 연 50만 달러 절감 주장

2026년 3월 25일 Reco의 `gnata` 글을 다룬 Hacker News 포스트는 크롤링 시점 기준 256 points와 237 comments를 기록했다. Reco는 JSONata 2.x를 Go로 옮기는 AI-assisted 작업이 약 7시간과 400달러 토큰 비용으로 시작됐고, RPC 중심 Node fleet 제거와 후속 리팩터링까지 합치면 연간 약 50만 달러 비용 절감으로 이어졌다고 주장한다.

#ai-coding #jsonata #go

LLM X/Twitter Mar 25, 2026 1 min read

Anthropic, frontend design와 장시간 software engineering을 위한 multi-agent harness 상세 공개

Anthropic는 2026년 3월 24일 새로운 Engineering Blog 글을 통해 Claude를 frontend design와 장시간 autonomous software engineering에 더 잘 맞추기 위해 multi-agent harness를 어떻게 썼는지 설명했다. 이 글은 planning, generation, evaluation 역할을 분리하고, 단일 agent 대비 뚜렷한 성능 향상을 제시한다.

#anthropic #claude #multi-agent

LLM Hacker News Mar 12, 2026 1 min read

Hacker News가 본 SWE-bench 합격과 mergeable code의 거리

METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.

#swe-bench #coding-agents #evals

LLM Reddit Mar 10, 2026 2 min read

LocalLLaMA가 주목한 35만6천 행 규모 인간 코드 리뷰 데이터셋

LocalLLaMA 게시글은 Hugging Face의 새 인간 코드 리뷰 데이터셋을 조명했다. inline reviewer comment, 코드 수정 전후, 그리고 negative example을 37개 언어에 걸쳐 묶은 구성이 특징이다.

#code-review #datasets #github

AI Hacker News Mar 8, 2026 1 min read

Hacker News가 주목한 SWE-CI, 장기 코드 유지보수형 coding agent benchmark

Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.

#coding-agents #benchmark #software-engineering