Posted in Web 如何评价 DeepSeek 正式发布的 DeepSeek-R1与DeepSeek-R1-Zero模型? January 24, 2025 相当令人震撼的工作,特别是 Deepseek-r1-zero。 没有任何监督训练,纯强化学习. 首先,驳斥了“感谢OpenAI开源”、“蒸馏OpenAI-o1”的说法,Deepseek-r1-zero 模型在预训练之后,是完全没有经过任何监督学习的,也就是说没有使用任何其他思维链模型(以及人类)的输出。 https://www.zhihu.com/question/10080578443