DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models
论文链接: arXiv:2402.03300 Huggingface: papers/2402.03300
概述
DeepSeekMath 7B 是 DeepSeek 团队推出的专注于数学推理能力的开源语言模型。该模型通过大规模数学数据预训练和创新的强化学习方法,在数学推理任务上取得了接近 GPT-4 的性能。
核心贡献
1. 大规模数学数据预训练
- 基于 DeepSeek-Coder-Base-v1.5 7B 继续预训练
- 使用 120B 数学相关 tokens(来自 Common Crawl)
- 结合自然语言和代码数据
- 精心设计的数据选择管道(data selection pipeline)
2. Group Relative Policy Optimization (GRPO)
GRPO 是 PPO 的改进版本,专门用于增强数学推理能力:
- 内存优化: 相比 PPO 显著降低内存使用
- 效率提升: 更高效的强化学习训练
- 推理增强: 专门针对数学推理任务优化
性能表现
MATH Benchmark
| 方法 | 分数 |
|---|---|
| DeepSeekMath 7B (单样本) | 51.7% |
| DeepSeekMath 7B (64样本自一致性) | 60.9% |
| Gemini-Ultra | ~55% |
| GPT-4 | ~52% |
关键特点:
- 不依赖外部工具包(如计算器、代码执行)
- 不使用投票技术(单样本即可达到高性能)
技术细节
数据选择管道
从 Common Crawl 中筛选数学相关数据的关键步骤:
- 种子数据收集: 从高质量数学网站收集种子 URL
- 分类器训练: 训练分类器识别数学相关网页
- 数据过滤: 去除低质量、重复内容
- 去重处理: 确保数据多样性
GRPO 算法
Group Relative Policy Optimization 的核心思想:
- 使用组内相对奖励(group-relative rewards)
- 减少对价值网络(value network)的依赖
- 降低训练内存开销
- 更稳定的训练过程
模型版本
| 模型 | 说明 |
|---|---|
| deepseek-math-7b-base | 基础预训练模型 |
| deepseek-math-7b-instruct | 指令微调版本 |
| deepseek-math-7b-rl | 强化学习优化版本 |
关键发现
- 公开网络数据的潜力: 通过精心设计的数据选择,公开网络数据可以显著提升数学推理能力
- 代码预训练的价值: 代码预训练对数学推理有正向迁移效果
- 强化学习的有效性: GRPO 能有效提升模型的推理能力
相关工作
- DeepSeek-Coder: 代码预训练模型
- PPO (Proximal Policy Optimization): 强化学习算法
- MATH Benchmark: 数学竞赛级别评测集
启示与应用
- 数据质量 > 数据量: 精心筛选的数据比大规模低质量数据更有效
- 领域特定预训练: 针特定领域(如数学)的预训练可以显著提升性能
- 强化学习 + LLM: RL 方法可以有效提升 LLM 的推理能力
参考资源
- GitHub 仓库
- Huggingface 模型
- arXiv: 2402.03300