Chinese AI startup DeepSeek quietly released its massive 685-billion-parameter open-source language model DeepSeek-V3.1, creating significant waves in the AI industry despite its low-key launch. The model, increased from its 671B predecessor, features a 128,000-token context window and uses Mixture-of-Experts (MoE) architecture that activates only 37 billion parameters per token to keep inference costs low. It employs a hybrid design integrating reasoning and non-reasoning functions into a single model, operating in default chat mode but switching to thinking and tool-use modes with special tokens. Early benchmarks show the model achieving a 71.6% score on the Aider coding benchmark, slightly outperforming Anthropic's Claude Opus 4 while being significantly more cost-effective. The model delivers performance at approximately $1.01 per complete coding task compared to systems costing nearly $70 for equivalent workloads. Released under the permissive MIT license for commercial use and modification, it's freely available on Hugging Face, directly challenging the high-cost, closed business models of American AI giants. However, its enormous 700GB size presents practical barriers for self-hosting and customization, requiring substantial computational resources and expertise that most organizations lack.
중국 AI 스타트업 딥시크가 6,850억 개 매개변수를 가진 대규모 오픈소스 언어모델 딥시크-V3.1을 조용히 출시했지만 AI 업계에 큰 파장을 일으키고 있다. 이 모델은 이전 버전 6,710억 개에서 증가한 규모로 128,000 토큰 컨텍스트 윈도우를 지원하며, 전문가 혼합(MoE) 아키텍처를 통해 토큰당 370억 개 매개변수만 활성화해 추론 비용을 절약한다. 추론과 일반 기능을 단일 모델에 통합한 하이브리드 설계로 기본 채팅 모드에서 작동하다가 특수 토큰 추가로 사고 및 도구 사용 모드로 전환할 수 있다. 초기 벤치마크에서 에이더(Aider) 코딩 테스트 71.6% 점수를 기록해 앤트로픽의 클로드 오푸스 4를 약간 앞서면서도 비용은 훨씬 저렴한 것으로 나타났다. 완전한 코딩 작업당 약 1,410원($1.01) 비용으로 동등한 작업량에 9만7,860원($70)에 가까운 비용이 드는 시스템들보다 현저히 경제적이다. MIT 라이선스로 상업적 사용과 수정이 가능하며 허깅페이스에서 무료로 이용할 수 있어 미국 AI 거대기업들의 고비용 폐쇄형 비즈니스 모델에 직접적인 도전장을 내밀고 있다. 하지만 700GB에 달하는 거대한 크기로 인해 자체 호스팅과 커스터마이징에는 상당한 컴퓨팅 자원과 전문성이 필요해 대부분 조직에게는 실질적인 장벽이 될 것으로 보인다.
