九章云极发布强化学习云平台，刷新AI算力使用效率-新华网

在6月16日的九章云极智能计算科技论坛上，九章云极DataCanvas公司宣布上线工业级强化学习AI新云平台——九章强化学习云平台AgentiCTRL。该平台专为加速AI智能体“训推一体”而构建，通过强化“Control”能力，让强化学习（RL）赋予大模型更强的行动力和决策控制力，助力全球领先企业和AI实验室充分释放创新潜力。

实测数据显示，AgentiCTRL将AI智能体训推门槛压缩至一行代码。与传统强化学习相比，该平台端到端训练效率提升500%，综合成本下降60%。

下一代智能体的智算基座

与数据驱动的深度学习不同，强化学习通过经验迭代提升模型能力，突破了全球AI产业受限于静态数据训练的瓶颈，在智能体发展中展现卓越性能。

随着DeepSeek、OpenAI等主流基座模型运用强化学习显著提升推理能力，九章强化学习云平台AgentiCTRL凭借基于反馈机制持续迭代的特性，正迅速崛起为下一代智能体的智算基座。

AgentiCTRL采用Serverless+RL混合架构，具备低门槛、低TCO（总拥有成本）和高弹性等优势。平台支持跨AIDC弹性资源调度，训练高峰期可秒级扩展响应，能够实现万卡级GPU集群的统一调度。同时，其多环境异构执行引擎支持CPU、GPU、NPU等多元算力透明调用，在AIDC一体化架构下，训练任务可自动选择最优算力组合，这使平台在支撑万亿模型训练时，仍保持毫秒级扩缩响应速度。

通过深度融合智能体训练与推理的一体化，AgentiCTRL有望成为行业首选的智能体开发基座。在生物医药领域，AgentiCTRL平台依托对海量基因数据、蛋白质组数据的动态反馈优化机制，可赋能智能体快速生成新型药物分子结构，为靶向药物研发、疑难病症治疗方案创新提供技术支撑；工业应用方面，AgentiCTRL平台基于“数据提取+经验反馈”的双重特性，依托离散制造和压力传感等领域的经验反馈数据，支撑智能体实现模型图纸的实时生成能力；在游戏竞技领域，经AgentiCTRL平台训练的模型已展现出超越优秀职业玩家的竞技水平。

一行代码启动的智算革命

在强化学习共识机制下，九章云极的工程化能力保障了AgentiCTRL的易用性、稳定性与快速迭代的能力。

AgentiCTRL的核心突破在于消解了工业级强化学习的工程复杂度，支持开发者通过单行API调用平台内DeepSeek、Qwen等国际主流模型，可调度跨AIDC的万卡异构算力，其自动化多目标奖励融合与Tool Use设计，大大简化了训推流程。

AgentiCTRL在训推任务实测中表现卓越。和传统强化学习方式相比，AgentiCTRL将Agent训练耗时缩短37%，从13.8小时压缩至8.7小时；GPU利用率从59%提升至84%，采样轨迹延迟降低80%以上；独创的“按度计费”模式实现综合成本下降60%，突发训练任务响应速度达秒级。

针对智能体后训练的巨大市场需求，AgenticRL同步发布了业内首个训练流程智能体Alaya-UI，实现一行代码启动强化学习训练任务。九章云极DataCanvas公司技术副总裁杨健表示：“用户无需准备算力、训练环境或采样环境——这些均由AgentiCTRL的智能体自动完成。”

实测数据显示，Alaya-UI通过在OSWorld Task测试中任务完成率从6.87%跃升至24.8%，支撑“秒级生成百万Token级”的云编程需求，实现智能体训推自动化任务。

面向生物医药、工业设计、消费创意等领域加速智能体进程，AgentiCTRL将凭借万卡异构调度能力与秒级响应的可靠性，以低门槛、极具性价比的智算方案支持大规模智能体应用创新，助力千行百业进入AI普惠时代。

【纠错】【责任编辑:顾彦】

深度观察

新华全媒头条丨 “三夏”机收减损一线观察