在6月16日的九章云极智能计算科技论坛上,九章云极DataCanvas公司宣布上线工业级强化学习AI新云平台——九章强化学习云平台AgentiCTRL。该平台专为加速AI智能体“训推一体”而构建,通过强化“Control”能力,让强化学习(RL)赋予大模型更强的行动力和决策控制力,助力全球领先企业和AI实验室充分释放创新潜力。
实测数据显示,AgentiCTRL将AI智能体训推门槛压缩至一行代码。与传统强化学习相比,该平台端到端训练效率提升500%,综合成本下降60%。

下一代智能体的智算基座
与数据驱动的深度学习不同,强化学习通过经验迭代提升模型能力,突破了全球AI产业受限于静态数据训练的瓶颈,在智能体发展中展现卓越性能。
随着DeepSeek、OpenAI等主流基座模型运用强化学习显著提升推理能力,九章强化学习云平台AgentiCTRL凭借基于反馈机制持续迭代的特性,正迅速崛起为下一代智能体的智算基座。
AgentiCTRL采用Serverless+RL混合架构,具备低门槛、低TCO(总拥有成本)和高弹性等优势。平台支持跨AIDC弹性资源调度,训练高峰期可秒级扩展响应,能够实现万卡级GPU集群的统一调度。同时,其多环境异构执行引擎支持CPU、GPU、NPU等多元算力透明调用,在AIDC一体化架构下,训练任务可自动选择最优算力组合,这使平台在支撑万亿模型训练时,仍保持毫秒级扩缩响应速度。

通过深度融合智能体训练与推理的一体化,AgentiCTRL有望成为行业首选的智能体开发基座。在生物医药领域,AgentiCTRL平台依托对海量基因数据、蛋白质组数据的动态反馈优化机制,可赋能智能体快速生成新型药物分子结构,为靶向药物研发、疑难病症治疗方案创新提供技术支撑;工业应用方面,AgentiCTRL平台基于“数据提取+经验反馈”的双重特性,依托离散制造和压力传感等领域的经验反馈数据,支撑智能体实现模型图纸的实时生成能力;在游戏竞技领域,经AgentiCTRL平台训练的模型已展现出超越优秀职业玩家的竞技水平。
一行代码启动的智算革命
在强化学习共识机制下,九章云极的工程化能力保障了AgentiCTRL的易用性、稳定性与快速迭代的能力。
AgentiCTRL的核心突破在于消解了工业级强化学习的工程复杂度,支持开发者通过单行API调用平台内DeepSeek、Qwen等国际主流模型,可调度跨AIDC的万卡异构算力,其自动化多目标奖励融合与Tool Use设计,大大简化了训推流程。
AgentiCTRL在训推任务实测中表现卓越。和传统强化学习方式相比,AgentiCTRL将Agent训练耗时缩短37%,从13.8小时压缩至8.7小时;GPU利用率从59%提升至84%,采样轨迹延迟降低80%以上;独创的“按度计费”模式实现综合成本下降60%,突发训练任务响应速度达秒级。
针对智能体后训练的巨大市场需求,AgenticRL同步发布了业内首个训练流程智能体Alaya-UI,实现一行代码启动强化学习训练任务。九章云极DataCanvas公司技术副总裁杨健表示:“用户无需准备算力、训练环境或采样环境——这些均由AgentiCTRL的智能体自动完成。”
实测数据显示,Alaya-UI通过在OSWorld Task测试中任务完成率从6.87%跃升至24.8%,支撑“秒级生成百万Token级”的云编程需求,实现智能体训推自动化任务。
面向生物医药、工业设计、消费创意等领域加速智能体进程,AgentiCTRL将凭借万卡异构调度能力与秒级响应的可靠性,以低门槛、极具性价比的智算方案支持大规模智能体应用创新,助力千行百业进入AI普惠时代。



