蚂蚁集团的AI技术突破
随着DeepSeek引发AI算力优化热潮,蚂蚁集团全面发力AI技术,基于中国AI芯片进行Infra,实现了模型技术突破。
3月24日消息,蚂蚁集团CTO何征宇带领团队,利用AI Infra技术,开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,前者参数规模168亿,Plus基座模型参数规模高达2900亿。
计算成本降低与性能提升
同时,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,达508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。
目前,相关技术成果论文发表在预印版Arxiv平台上。据彭博,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片(如H800)的结果相似。
蚂蚁团队的优化策略
蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行了优化和落地。
在预训练层面,蚂蚁构建约9万亿token的高质量语料库,采用创新的MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,提高训练效率。
据悉,蚂蚁百灵大模型Ling-Plus和Ling-Lite将计划开源,并应用于医疗、金融等行业领域。
转载请注明来自文化资讯网,本文标题:《蚂蚁2900亿大模型用国产芯片训练,计算成本仅508万元,是如何做到的?》
还没有评论,来说两句吧...