Posted in Web deepseek v3的成本这么低的根本原因是什么? – 知乎 January 24, 2025 看技术报告啊,哪个报告写的多好啊。具体来说,MoE 架构 和 FP8 混合精度训练 是降低 DeepSeek-V3 训练成本的最大因素: MoE 架构:通过稀疏激活机制大幅减少了计算量。 FP8 训练:通过低精度计算减少了 GPU 内存使用和计算开销。 https://www.zhihu.com/question/8423473404