DeepSeek, 전체 API 입력 캐시 가격을 10분의 1로 낮춰 추론 비용 경쟁 압박 확대
Original: DeepSeek Input Cache Price Drop View original →
DeepSeek는 짧은 가격 트윗 하나로 추론 비용 경쟁의 방향을 분명히 했다. 핵심은 입력 캐시 적중 요금을 전 제품군에서 기존의 10분의 1로 낮췄다는 문장이다. 이 변화가 중요한 이유는 장문 시스템 프롬프트, 반복되는 지식 베이스 접두부, 세션 메모리처럼 같은 문맥을 여러 번 재사용하는 서비스에서는 출력 토큰보다 캐시 요금이 실제 청구서에 더 큰 영향을 줄 때가 많기 때문이다. 코딩 보조, RAG 검색, 에이전트 루프처럼 긴 컨텍스트를 오래 들고 가는 제품일수록 체감 폭은 더 커진다.
“Effective immediately, the price for input cache hits across the ENTIRE DeepSeek API series is reduced to just 1/10th of the original price… The DeepSeek-V4-Pro 75% OFF promotion is still active.”
눈여겨볼 대목은 적용 범위다. 특정 플래그십 모델 한 종이나 베타 구간이 아니라 “ENTIRE DeepSeek API series”라는 표현을 썼다. 즉, 비용 절감의 메시지를 제품군 전체의 운영 전략으로 던진 셈이다. 90% 인하가 유지된다면 개발자는 불필요하게 프롬프트를 잘라내기보다, 검증된 지시문과 정책 블록을 더 오래 재사용하는 쪽으로 설계를 바꿀 수 있다. 특히 캐시 적중률이 높은 기업형 챗봇이나 다단계 에이전트에서는 이 차이가 트래픽 배분과 모델 선택을 다시 계산하게 만든다.
deepseek_ai는 DeepSeek의 공식 채널로, 주로 모델과 API 변화를 짧고 빠르게 밀어 올리는 창구 역할을 한다. 이번 글은 논문이나 저장소 대신 DeepSeek 공식 사이트로만 연결됐기 때문에 기술적 디테일보다는 가격 신호 자체가 핵심이다. 동시에 V4-Pro 75% 할인도 계속된다고 적어 놓아, 단기 프로모션과 구조적 가격 인하를 겹쳐서 시장 압박을 키우려는 의도도 읽힌다.
다음으로 확인할 것은 실제 가격 페이지와 사용량 계측 방식이다. 캐시 적중 정의, 상한선, 지역별 차이, 모델별 예외가 붙는지에 따라 체감 절감 폭은 달라질 수 있다. 그래도 “10분의 1”이라는 숫자 자체는 충분히 크다. 경쟁사들이 같은 항목에서 대응 인하를 내놓는지, 그리고 장문 컨텍스트 워크로드가 DeepSeek 쪽으로 얼마나 이동하는지가 바로 다음 관전 포인트다. 출처: 원문 트윗.
Related Articles
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.
Comments (0)
No comments yet. Be the first to comment!