最近,DeepSeek R1 模型备受关注,它究竟有哪些突出的优势呢?
在 AIME 2024 数学竞赛中,DeepSeek R1 取得了 79.8% 的 pass@1 得分,略微超过 OpenAI-o1-1217。在 MATH-500 基准测试中,它获得了 97.3% 的高分,表现与 OpenAI-o1-1217 相当,并显著优于其他模型。
在代码竞赛任务中,DeepSeek R1 展现了专家级水平,例如在 Codeforces 上获得了 2,029 Elo 评级,超过了该竞赛中 96.3% 的人类参与者。
在需要复杂推理的任务(如 FRAMES)中,DeepSeek R1 展现出强大的能力,凸显了其在 AI 驱动的搜索和数据分析任务中的潜力。
DeepSeek R1 的训练成本显著低于 OpenAI 的模型。数据显示,每 100 万 tokens 的输入,R1 比 OpenAI 的 o1 模型便宜 90%,输出价格更是降低了 27 倍左右。
与传统模型相比,R1 可以在较低性能的机器上进行运算,这对于小型企业尤其重要。
DeepSeek R1 采用 MIT License 开源,允许用户自由使用、修改、分发和商业化该模型,包括模型权重和输出。
支持模型蒸馏,开发者可以将 DeepSeek R1 的推理能力迁移到更小型的模型中,以满足特定场景需求。
DeepSeek R1 的模型蒸馏是将一个大而强的模型(称为“老师”)的知识传递给一个小而轻的模型(称为“学生”)。虽然小模型体积小、运算速度快,但其表现却能接近大模型。
老师和学生模型:DeepSeek R1 是一个强大的模型,经过大规模训练,掌握了许多推理和判断能力。我们选择一个小一点的学生模型,让其学习老师的能力。
生成训练数据:老师模型会先做一遍题,输出答案并记录推理过程,然后将这些作为“教材”交给学生模型。
学生模型学习:学生模型通过反复“读”这些教材,模仿老师的思路,逐渐提高能力,甚至接近老师的水平。
效果:经过蒸馏后,学生模型虽然体积小、运行速度快,但表现能达到大模型的效果,特别是在一些数学题的测试中,学生模型甚至超越了一些顶级模型。
DeepSeek R1 的训练成本低,主要得益于以下几个方面:
稀疏计算设计:DeepSeek R1 只使用部分计算资源,减少了计算量。
改进的注意力机制:优化了传统计算方式,减少了计算复杂性。
高效分配资源:根据任务需求分配必要的计算资源,避免无用功。
课程学习:先学简单的,逐步过渡到难的,提升训练效率。
动态批处理:根据数据长度调整批次,最大化利用 GPU 内存。
高效优化器:使用节省内存的优化器,加速训练。
数据蒸馏:通过筛选或合成数据,减少原始数据量。
清理重复数据:去除无用的重复数据,加快学习速度。
数据复用:重复使用某些数据,避免重新训练。
混合并行:结合多种并行计算方式,加快训练速度。
显存压缩:压缩显存使用,减少内存占用。
低精度训练:使用低精度计算,降低计算和存储需求。
增量训练:基于已有的预训练模型进行微调,节省成本。
冻结部分参数:冻结通用层,只训练与任务相关的部分,降低开销。
自监督预训练任务优化:设计高效的预训练任务,提升数据利用率。
早期退出:对于简单样本,模型可以提前结束计算,减少计算量。
如果传统模型训练需要 1000 个 GPU 天,DeepSeek R1 的优化技术可以让训练成本降低:
MoE 结构减少 40% 计算量 → 600 GPU 天
动态批处理提升 20% 效率 → 480 GPU 天
数据蒸馏减少 30% 训练步数 → 最终需要 336 GPU 天(成本降低了 66%)
DeepSeek 作为国产 AI 的代表,意义非凡。其开源特性和低廉的价格,使其在更广泛的应用场景中展现出强大的潜力。