蚂蚁2900亿大模型用国产芯片训练,计算成本仅508万元,是如何做到的?

德雷克·罗杰 2025-04-10 美容 23 次浏览 0个评论

蚂蚁集团的AI技术突破

随着DeepSeek引发AI算力优化热潮,蚂蚁集团全面发力AI技术,基于中国AI芯片进行Infra,实现了模型技术突破。

3月24日消息,蚂蚁集团CTO何征宇带领团队,利用AI Infra技术,开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,前者参数规模168亿,Plus基座模型参数规模高达2900亿。

计算成本降低与性能提升

同时,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,达508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。

目前,相关技术成果论文发表在预印版Arxiv平台上。据彭博,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片(如H800)的结果相似。

蚂蚁团队的优化策略

蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行了优化和落地。

在预训练层面,蚂蚁构建约9万亿token的高质量语料库,采用创新的MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,提高训练效率。

据悉,蚂蚁百灵大模型Ling-Plus和Ling-Lite将计划开源,并应用于医疗、金融等行业领域。

转载请注明来自文化资讯网,本文标题:《蚂蚁2900亿大模型用国产芯片训练,计算成本仅508万元,是如何做到的?》

每一天,每一秒,你所做的决定都会改变你的人生!
评论列表 (暂无评论,3人围观)参与讨论

还没有评论,来说两句吧...