4月18日,火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。火山引擎总裁谭待表示,AI大模型有巨大潜力和创新空间,火山引擎会服务客户做好大模型,共同推动各行业的智能化升级。

字节跳动副总裁杨震原分享抖音的机器学习实践
会上,火山引擎宣布与字节跳动国内业务并池。基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度10万核CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠80%以上。
谭待表示,国内很多科技公司已经投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施。

火山引擎总裁谭待宣布支持“多云多模型”的未来架构
据悉,火山引擎机器学习平台经过抖音等海量用户业务长期打磨,支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。
字节跳动副总裁杨震原认为,业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。通过潮汐、混部等方式,火山引擎实现资源的高利用率和极低成本。以抖音推荐系统为例,工程师用15个月的样本训练某个模型,5小时就能完成训练,成本只有5000元。火爆全网的抖音“AI绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。
良好的合作机制是火山引擎技术发展及落地的保障。据悉,火山引擎与国内推出自研大模型产品的AI技术公司MiniMax合作建立了超大规模实验平台,实现千卡级常态化训练;超大规模推理平台有万卡级算力池,支撑单日过亿次调用。在火山引擎的云上,MiniMax大模型业务实现快速突破。
面对当前大模型发展的增长期,火山引擎保持了极度克制。对此,谭待表示,大模型还在发展初期,面临数据安全、内容安全、隐私保护、版权保护等许多问题需要努力解决。但可以预见,大模型将带动云上AI算力急剧增长,AI算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS平台带来新的挑战。
而大模型及云技术需要大规模算力,为此火山引擎发布的新一代自研DPU,实现计算、存储、网络的全组件卸载也释放了更多资源给业务负载。据悉,火山引擎自研DPU网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的GPU实例,相较上一代实例集群性能最高提升3倍以上。
例如,自动驾驶公司毫末智行与火山引擎合作打造智算中心,为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍,DriveGPT使用量产车4000万公里的人驾数据训练,参数规模达1200亿,对自动驾驶认知决策模型进行持续优化。谭待也表示,AI算力的需求在各行各业都将成为迫切需要,在大模型及下游应用发展推动下将会使不同技术交汇实现生态协同,也将为“多云多模型”时代提供基础。
会上,火山引擎也顺势推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品,支持客户更好地使用多家云服务。谭待表示,火山引擎的指向是为企业发展提供降本增效的技术。未来,与火山引擎合作的企业也将更加方便的享受混合调度带来的弹性与性价比。
谈及火山引擎的战略目标,谭待说:“提升产品竞争力,做到大规模复制项目,为客户创造更大价值,同时在业绩上实现持续增长是当前火山引擎需要做的事,而敏捷迭代、数据驱动、体验创新的价值理念更能代表火山引擎未来长期发展的目标,而初创期的三年已经让火山引擎有了可以在赛道中发展的实力。未来也将继续衡量发展的方向,从而在行业形成竞争力。”(文/郑伟)

