DeepSeek 称其新模型只花了 550 万美元训练

December 30, 2024

杭州深度求索（DeepSeek）上周宣布了新系列模型 DeepSeek-V3。深度求索表示，DeepSeek-V3 在知识类任务上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Anthropic 的 Claude-3.5-Sonnet-1022。在美国数学竞赛和全国高中数学联赛上，DeepSeek-V3 大幅超过了其他所有开源闭源模型。在生成速度上，DeepSeek-V3 从 20TPS 大幅提高至 60TPS。官方技术论文披露，DeepSeek-V3 模型的总训练成本为 557.6 万美元，而 GPT-4o 等模型的训练成本约为 1 亿美元。DeepSeek-V3 有 6710 亿参数，在两个月时间内用 14.8 万亿 token 的数据进行了训练。前 OpenAI 和特斯拉高管 Andrej Karpathy 称，Llama 3 4050 亿参数模型使用了 3080 万 GPU 小时训练，DeepSeek-V3 参数规模更大，但只使用了 280 万 GPU 小时训练。如果它通过了氛围检查（vibe checks），那么这将是在资源受限的情况下研究和工程方面的一次令人印象深刻的展示。