本文聚焦蚂蚁Ling团队在大语言模型训练领域的创新成果。面对混合专家(MoE)模型训练成本高、依赖高性能计算资源的问题,蚂蚁团队通过一系列优化策略,实现了在低性能硬件上训练先进的大规模MoE模型,不仅节省成本,还在性能和安全性上表现出色,其成果引发了对中国AI创新能力的关注。
近年来,大语言模型呈现出迅猛的发展态势。特别是DeepSeek热潮的涌起,在学界和业界引发了关于通用人工智能(AGI)的广泛探讨。其中,混合专家(MoE)模型在特定任务中的表现十分优异,然而,其训练过程对高性能计算资源有着极高的依赖,这导致训练成本居高不下,严重限制了它在资源受限环境中的应用。
蚂蚁Ling团队经过深入研究后认为,尽管MoE模型训练对高性能AI芯片(例如H100和H800)有着较大的需求,且此类资源供应相对紧张,但低性能加速器却具有更易获取以及单位成本效益高的显著优势。基于此,团队意识到需要开发一种能够在异构计算单元和分布式集群间灵活切换的技术框架。同时,在AI Infra部分,团队着重在跨集群、跨设备的兼容和可靠层面进行性能优化。该公司明确设定的目标是“不使用高级GPU”来扩展模型,以探索更为经济高效的模型训练路径。
具体而言,蚂蚁Ling团队在模型训练的多个关键层面都进行了全面的优化和落地实践。
在预训练层面,蚂蚁团队投入大量精力构建了约9万亿token的高质量语料库。他们采用了创新的MoE架构,并深入分析缩放规律来精确确定超参数。在训练过程中,采用多阶段训练策略,并有效应对瞬时尖峰问题。通过优化模型架构和训练策略,例如精心选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,显著提高了训练效率。
论文显示,在AI异构计算平台上,技术人员将多个训练框架集成到统一的分布式深度学习框架中,即开源项目DLRover。为了充分利用各种平台的具体特性,团队还开发了轻量级调试工具XPUTimer。这个工具不仅有助于快速、高效地进行任务性能分析,还能将内存使用量大幅减少90%。而EDiT(弹性分布式训练)策略更是表现出色,在各种配置下,训练时间最多可减少66.1%。
此外,在存储优化方面,团队通过存储与训练流程的协同设计,有效提升了MoE场景下的I/O效率。通过5000个加速器MoE训练任务的实践验证,将检查点写入延迟降低了50%,减少了一半的时间消耗,同时还将训练节点上的峰值内存消耗降低了60%。
蚂蚁技术团队表示,利用Ling – Plus,在五种不同的硬件配置上对9万亿个token进行预训练。其中,使用高性能硬件配置(配置D)训练1万亿token的预训练成本约为635万元人民币。而蚂蚁的优化方法成功地将使用低规格硬件的成本降至508万元左右,节省了近20%的成本。
蚂蚁强调,这一结果充分证明了在性能较弱的硬件上训练最先进(SOTA)的大规模MoE模型的可行性,为基础模型开发在计算资源选择方面提供了更加灵活、经济的方法。
根据蚂蚁论文提供的FLOPS峰值,钛媒体AGI推测,这些AI加速器产品中可能涵盖壁仞、天数、寒武纪的算力芯片技术。
然而,这一成果与英伟达的理念背道而驰。英伟达CEO黄仁勋认为,即便像DeepSeek的R1等更高效的模型出现,计算需求仍将持续增长。AI大模型需要性能更优的芯片来创造更多收入,而非更便宜的芯片来削减成本。他始终坚持打造具有更多处理核心、晶体管和更大内存容量的高性能GPU芯片和“AI工厂”。
测试结果显示,在英语理解方面,蚂蚁论文中指出,Ling – Lite模型在一项关键基准测试中的表现优于Meta的Llama 3.1 – 8B模型。在中文基准测试中,Ling – Lite和Ling – Plus模型均优于DeepSeek的同类模型。
论文还指出:“Ling – Plus和Qwen2.5 – 72B – Instruct在安全性方面表现突出,且Ling – Plus在错误拒绝方面表现更佳。DeepSeek系列模型的错误拒绝现象最少,但部分安全性较低。而Ling – Plus在安全性和拒绝率之间表现出更好的整体平衡,在这些指标的平均值方面取得了最好的结果。”
据悉,蚂蚁百灵大模型Ling – Plus和Ling – Lite计划进行开源,并将应用于医疗、金融等行业领域,为这些行业的智能化发展提供有力支持。
目前,蚂蚁已经拥有三款AI助手管家产品,分别是生活助手“支小宝”、AI金融管家“蚂小财”,以及刚刚发布的AI医生助手等产品和解决方案,展现了蚂蚁在AI应用领域的多元化布局。
不过,蚂蚁也在论文中坦诚指出,大模型训练是一个极具挑战性且资源密集的过程,常常伴随着各种技术难题。错误和异常情况十分常见,有些问题相对容易解决,而有些则需要投入大量的时间和精力。Ling系列模型在训练阶段也面临着诸多挑战,包括稳定性问题,即使是硬件或模型结构的微小变化也可能导致问题的出现,例如模型错误率的大幅上升。
针对这份论文,彭博行业研究高级BI分析师Robert Lea评价道,蚂蚁的这一成果充分彰显了中国AI创新能力的不断增强,以及技术进步的步伐正在加快。如果相关内容得到证实,这将凸显出中国正在朝着AI自给自足的方向迈进,因为中国正积极转向成本更低、计算效率更高的模型,以有效绕过英伟达芯片的出口管制。
蚂蚁Ling团队在大语言模型训练上的创新成果。团队针对MoE模型训练成本高的问题,从多个层面进行优化,实现了在低性能硬件上训练先进模型,节省了成本,且模型在性能和安全性上表现良好。同时,蚂蚁计划开源相关模型并应用于多行业,虽训练面临挑战,但成果凸显了中国AI创新能力的提升和迈向自给自足的趋势。
原创文章,作者:Robert,如若转载,请注明出处:https://www.yanghehb.com/4099.html