Posted in Web 怎样看待深度求索发布的大模型DeepSeek-V3?该模型有哪些先进性和技术特色? – 知乎 January 24, 2025 推理速度快:Deepseek V3 每秒的吞吐量可达 60 tokens; 模型设计好:Deepseek V3 采用 MoE 结构,完整模型达到 671B 的参数量,其中单个 token 激活 37B 参数; 模型架构创新 1. 混合专家(MoE)架构. DeepSeek V3采用了创新的混合专家(MoE)架构,该架构包含6710亿参数,每次激活370亿 … https://www.zhihu.com/question/7990870796