蚂蚁2900亿大模型用国产芯片训练，计算成本仅508万元，是如何做到的？

德雷克·罗杰 2025-04-10 美容 23 次浏览 0个评论

蚂蚁集团的AI技术突破

随着DeepSeek引发AI算力优化热潮，蚂蚁集团全面发力AI技术，基于中国AI芯片进行Infra，实现了模型技术突破。

3月24日消息，蚂蚁集团CTO何征宇带领团队，利用AI Infra技术，开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus，前者参数规模168亿，Plus基座模型参数规模高达2900亿。

同时，蚂蚁团队在模型预训练阶段使用较低规格的硬件系统，将计算成本降低约20%，达508万元人民币，最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。

目前，相关技术成果论文发表在预印版Arxiv平台上。据彭博，该模型在训练阶段使用的是国产AI/GPGPU芯片产品，并非完全使用英伟达芯片，但最终得到的结果与英伟达芯片（如H800）的结果相似。

蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行了优化和落地。

在预训练层面，蚂蚁构建约9万亿token的高质量语料库，采用创新的MoE架构，分析缩放规律确定超参数，多阶段训练并应对瞬时尖峰问题，并且通过优化模型架构和训练策略，提高训练效率。

据悉，蚂蚁百灵大模型Ling-Plus和Ling-Lite将计划开源，并应用于医疗、金融等行业领域。

德雷克·罗杰 602篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

快捷回复：

评论列表（暂无评论，3人围观）参与讨论