垂类大模型生产系统
AI 基础设施工程师
垂直大模型 训练流程 标准化 ai原生架构
基础设施
大模型生命周期
- 数据处理
- 训练/微调
- 微调框架
- pytorch PEFT/LOFA
- 推理
零样本泛化、少样本 ICL、思维链(CoT)和指令遵循
AI领域快速发展 各种开源项目、标准、生态涌现,各个大厂都在构建自己的生态
做公司级别的标准化统一
白皮书
AI-就绪 - 数据 - 基础设施 - 白皮书 AI纪元数据基础设施挑战
- 数据资产管理:企业需要具备多样化的功能,以应对来自多个来源的、不同质量的数据,并支持不同部门之间的完整数据流动。
- 集群利用率:大规模训练集群的计算资源利用率低于50%。这导致计算建设成本高、功耗大。
- 数据一致性:任何用户必须能够在任何时间、任何节点访问最新更新的数据副本。
- 数据韧性:基于AI的应用程序导致新的漏洞,危及韧性。一旦大型AI模型遭受攻击,可能造成数千万美元的损失。
生产流程 基模 数据工程 模型微调策略 评估与验证体系
架构层次
数据
行业数据 (基础)
- 存储 大数据存储
- 处理 pipeline 复用
- 清洗
- 脱敏(医疗/金融领域)
模型、算法
模型训练/微调
- 模型权重存储
- 基础模型选择
- 不同业务场景、行业 选择合适的基础模型
- SFT 、RLHF框架 标准 训练和微调框架
- llamaFactoy
- unsloth fine-tuning 解决方案
-
模型存储
- 验证流程标准化(评估验证体系)
- 基准测试 行业专用数据集
- 场景化POC(概念验证)
- “红队”测试 专门攻击模型的弱点,测试其是否会生成幻觉(Hallucination)或违规建议 部署
- 量化框架
bitsandbytes模型量化库 推理
- vllm
智能体
AI应用
RAG
- 索引/预处理
- 检索/生成 知识图谱
未来趋势
- 从“训练”转向“组装”:
未来的研发可能更多是 Agent(智能体) 的编排。一个大模型作为“大脑”,调用多个小工具(计算器、搜索器、专业数据库)来完成复杂任务,而非单纯依赖模型内部参数记忆。 - 多模态融合 (Multi-modal):
垂类应用不再局限于文本。
- 工业:输入设备震动波形图 + 文本日志 → 输出故障原因。
- 教育:输入手写试卷照片 → 输出批改结果与知识点分析。
- 小模型专精化 (Small but Mighty):
在边缘设备(如工厂工控机、车载终端)上,参数量在 7B-14B 的量化小模型将成为主流,因为它们响应快、成本低、数据不出域。 - 合规即代码 (Compliance as Code):
在研发流程中嵌入自动化合规检测脚本,确保模型输出符合《生成式人工智能服务管理暂行办法》及行业
研发平台
- 数据标注
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs # 拆解一下字节的烧钱工作,MegaScale!