距离端午节还有
:
:
:
设为首页收藏本站 防骗检测 中文 英语 日語 韩语 劰载中...

 找回密码
 立即注册

微信扫一扫,快捷登录!

只需一步,快速开始

手机扫码登录更安全

搜索
热搜: 活动 交友
查看: 344|回复: 1

【国际动态】机器人会写代码了!英伟达开源 CaP-X 框架:让大模型现场编写 ...

[复制链接]
论坛新秀
等级 1
0
累计签到
1
抢沙发
0
被点赞

3

主题

1

回帖

29

积分
积分
29
  • 0
  • 0
  • 收到
  • 送出
时空年龄
0.2岁
中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
发表于 2026-4-7 05:31:45 手机频道 | 显示全部楼层 |阅读模式 来自 中国广东省深圳市南山区
一身戎装走天涯
一身戎装走天涯
中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
(来源:机器人(14.200, -0.38, -2.61%)全球资讯)

【圣何塞讯】 2026年4月2日,英伟达(NVIDIA)正式开源了全新的机器人操控框架 CaP-X(Code-as-Policy X)。该框架的核心突破在于,它让机器人不再只是被动执行预设指令,而是能通过大语言模型(LLM)“看着”摄像头画面,现场编写 Python 代码来控制自己的动作。

从“下指令”到“写程序”:具身智能的逻辑进化
CaP-X 彻底改变了机器人的学习路径,将大模型从“指挥官”变成了“程序员”:

  • 自主编程: 机器人感知环境后,会自主生成包含感知和控制原语的 Python 代码。例如:看到桌上的瓶子,它会写一段代码调用视觉 API 定位,再写一段代码驱动机械臂抓取。
  • 技能库积累: 如果生成的代码成功完成了任务,CaP-X 会将其自动存入“技能库”。这就像给机器人装了一个“大脑外挂”,随着任务增加,它的技能库会不断进化。
  • 跨形态复用: 最具颠覆性的一点是,这些代码技能可以在不同形态的机器人(如机械臂、人形机器人、四足狗)之间复用,无需针对每种硬件重新训练。
核心组件:全链路开发工具包
CaP-X 不仅是一个模型,而是一整套工具链:
CaP-Gym: 一个基于 Gymnasium 接口的交互式训练环境,实现“代码即策略”。
CaP-Agent0: 一个无需针对特定任务训练的智能体,在多项操纵任务中,其成功率已追平甚至超越人类专家代码。
CaP-RL: 引入强化学习进化算法,让 7B 规模的小模型在仅 50 次迭代后,任务成功率从 20% 飙升至 72%。
行业影响:具身智能的“Harness”时代
英伟达机器人研究主管 Jim Fan 表示,CaP-X 的开源标志着机器人正式进入“智能体时代”。它证明了逻辑推理路线在具身智能中具备极强竞争力,甚至在某些精细操作任务上优于传统的端到端黑盒模型。
对于开发者而言,这意味着只要会写 Python 的 API 接口,就能轻松“驱动”复杂的物理机器人,极大降低了具身智能的开发门槛。
本报道基于 2026 年 4 月英伟达官方开源信息及 Jim Fan 公开发言整理。



                                                                                                                                                                                                                                                                                                                                                                                                                   

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
一身戎装走天涯
一身戎装走天涯
情绪雷达
载入中
论坛新秀
等级 1
0
累计签到
2
抢沙发
0
被点赞

3

主题

0

回帖

18

积分
积分
18
  • 0
  • 0
  • 收到
  • 送出
时空年龄
0.2岁
中国
发表于 7 天前 | 显示全部楼层 来自 中国
中国
这个CaP-X框架确实有点意思,从"听命令干活"进化到"看懂现场自己写代码解决",算是把LLM的推理能力和机器人的执行力真正打通了。

看了下技术路径,有几个点挺值得关注的:

关于实际落地
现场生成Python代码听着很酷,但延迟和安全性怎么保证?工业场景里毫秒级的响应要求,LLM推理+代码生成+执行这一套流程下来,时延能不能压到可接受范围是个关键。另外生成的代码万一有bug,机器人动作失控的风险怎么兜住,这个可能得看英伟达有没有配套的安全沙箱机制。

生态影响
开源之后对小团队应该是利好。以前搞机器人控制得啃ROS、写状态机,现在理论上可以用自然语言描述任务,让框架自己去生成控制逻辑。不过这也意味着传统的机器人工程师得往"AI调教师"方向转型了,纯底层控制的价值可能会被稀释。

跨形态复用这块
看PPT里画的人形、机械臂、四足都能共享技能库,这个如果真能跑通,确实能解决机器人领域数据孤岛的老大难问题。但不同构型的动力学差异摆在那儿,一套代码泛化过去,实际迁移效果还得等社区反馈。

有兄弟已经在GitHub上跑起来了吗?想蹲一波真实测评,看看生成代码的可读性和调试体验怎么样。
回复
0
打印 恶作剧

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

最新热评 加载中...
在线客服
欢迎咨询,我们会尽快回复
一身戎装走天涯
扫码咨询
扫码咨询
×

会员列表

会员列表

附近的人

附近的人

聊天广场

聊天广场

网站工具

网站工具

顶部

简体中文
繁體中文
English(英语)
日本語(日语)
Deutsch(德语)
Русский язык(俄语)
بالعربية(阿拉伯语)
Türkçe(土耳其语)
Português(葡萄牙语)
ภาษาไทย(泰国语)
한어(朝鲜语/韩语)
Français(法语)

手机版|小黑屋|一身戎装走天涯 ( 晋ICP备2026001322号-1|晋公网安备14088202000143号 ) |网站地图 中文 英语 日語 韩语

本站支持IPv6网络

GMT+8, 2026-5-23 02:46 , Processed in 0.336602 second(s), 160 queries .

Powered by YsrzztY X3.5 Licensed

© 2025-2026 本站支持 IPv6 网络 .

快速回复 返回顶部 返回列表