OpenAI 첫 AI 칩 Jalapeno, 9개월 테이프아웃으로 LLM 추론 전용 설계 드러냈다
Original: OpenAI builds Jalapeno, its first LLM inference chip with Broadcom View original →
추론 비용을 칩 설계로 줄이려는 OpenAI의 선택
ChatGPT, Codex, API 같은 제품의 사용량이 커질수록 모델 성능만큼 중요한 것은 추론을 얼마나 싸고 안정적으로 처리하느냐다. OpenAI는 2026년 6월 24일 X에 올린 글에서 자사의 첫 AI 칩 Jalapeno를 공개하며, 범용 가속기를 빌려 쓰는 단계에서 LLM 추론 전용 인프라를 직접 설계하는 단계로 들어섰다는 신호를 냈다. 원문 트윗은 여기에서 확인할 수 있다.
We’ve designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production with @Broadcom, Jalapeño is purpose-built for the LLM workloads powering ChatGPT, Codex, the API, and future agentic products.
OpenAI의 링크된 설명은 더 구체적이다. Jalapeno는 OpenAI가 설계하고 Broadcom이 실리콘 구현과 네트워킹을 맡은 첫 Intelligence Processor다. 회사는 이 칩이 현재 연구실에서 생산 목표 주파수와 전력으로 ML 워크로드를 돌리고 있으며, 초기 테스트에서 현행 최고 수준 대비 와트당 성능이 크게 좋아질 것이라고 주장했다. 최종 성능 수치는 아직 측정 중이고, 자세한 기술 보고서는 몇 달 뒤 제시하겠다고 했다.
숫자에서 눈에 띄는 대목은 개발 속도다. OpenAI는 Jalapeno가 설계부터 제조 테이프아웃까지 9개월 만에 진행됐고, 고성능 ASIC 개발 주기 중 가장 빠른 사례라고 설명한다. OpenAI 모델이 설계와 최적화 일부를 가속했다는 점도 강조했다. 이 칩은 2026년 말 초기 배치를 목표로 하는 다세대 플랫폼의 첫 단계이며, Broadcom의 Tomahawk 네트워킹 실리콘과 Celestica의 보드·랙 시스템 통합까지 포함한다.
OpenAI 공식 계정은 모델과 제품 업데이트를 직접 배포하는 주요 채널이다. 이번 트윗은 새 모델보다 더 아래 계층인 계산 인프라의 방향을 보여준다. 다음 관전점은 몇 달 뒤 공개될 성능 보고서가 와트당 성능, 지연 시간, 실제 이용률을 어떤 기준으로 제시하는지다. 자체 칩이 실제로 API 가격, Codex 장시간 작업, ChatGPT 응답 안정성으로 이어지는지도 확인해야 한다.
Related Articles
정렬 연구의 초점이 벤치마크 통과에서 압박 속 지속성으로 이동했다. OpenAI는 12개 영역의 대화 데이터로 유익한 특성을 강화하고, 적대적 프롬프트와 해로운 파인튜닝 이후에도 유지되는지 시험했다.
취약점 탐지가 빨라진 뒤 남은 병목은 실제 패치다. OpenAI는 GPT-5.5-Cyber가 CyberGym에서 85.6%를 기록했고 Codex Security가 3만 개 이상 코드베이스를 스캔했다고 밝혔다.
Alex Ellis의 글이 주목받은 이유는 local LLM을 benchmark 순위가 아니라 실제 사업과 agent 작업의 비용·통제 문제로 다뤘기 때문이다.