焦点速看:DeepMind为何缺席GPT盛宴?原来在教小机器人踢足球

头条 >
机器之心
分享
机器之心报道

编辑:陈萍、杜伟

最近,整个 AI 社区都沉浸在 ChatGPT 带来的狂欢中,OpenAI 也一跃成为全球最受瞩目的科技公司。然而,同样把「通用人工智能」作为终极目标的 DeepMind 却缺席了这场狂欢。大众不免好奇:DeepMind 最近在忙什么?刚刚,DeepMind 似乎回应了这个问题:他们把一直以来坚持的强化学习带到了物理世界,做出了一些可以自己学习踢足球的具身智能体小机器人。

在很多学者看来,具身智能是通往 AGI 的一个非常有前途的方向,而 ChatGPT 的成功也离不开以强化学习为基础的 RLHF 技术。DeepMind vs. OpenAI,究竟谁能率先实现 AGI,答案似乎还未揭晓。

我们知道,创建通用的具身智能(即以敏捷、灵巧的方式在物理世界采取行动并像动物或人类一样进行理解的智能体)是 AI 研究者和机器人专家的长期目标之一。从时间上来看,创建具有复杂运动能力的智能具身智能体可以追溯到很多年前,无论是在模拟还是真实世界中。


(资料图)

近年来进展速度大大加快,其中基于学习的方法发挥了重大作用。例如深度强化学习已被证明能够解决模拟角色的复杂运动控制问题,包括复杂、感知驱动的全身控制或多智能体行为。同时,深度强化学习越来越多地应用于物理机器人。尤其是广泛使用的高质量四足机器人,它们已经成为了通过学习生成一系列稳健运动行为的演示目标。

不过,静态环境中的运动只是动物与人类部署其身体与世界交互的众多方式的一部分,这种运动形态已在很多研究全身控制和运动操纵的工作中得到验证,尤其是四足机器人。相关运动示例包括攀爬、运球或接球等足球技巧,以及使用腿进行简单操作。

其中对于足球运动来说,它展示了人类感觉运动智能的很多特征。足球的复杂性要求各种高敏捷和动态动作,包括跑动、转身、回避、踢球、传球、跌倒爬起等。这些动作需要以多种方式进行组合。球员则需要对球、队友和对方球员做出预测,并根据比赛环境调整动作。这种挑战的多样性已在机器人和 AI 社区中得到认可,并诞生了机器人世界杯 RoboCup。

不过应看到,踢好足球所需要的敏捷、灵活和迅速反应以及这些要素之间的平滑过渡对于手动设计机器人来说挑战很大且耗费时间。近日,DeepMind(现已与谷歌大脑团队合并为 Google DeepMind)的新论文探讨了利用深度强化学习为双足机器人学习敏捷的足球技巧。

论文地址:https://arxiv.org/pdf/2304.13653.pdf

项目主页:https://sites.google.com/view/op3-soccer

在这篇论文中,研究者研究了动态多智能体环境中小型类人机器人的全身控制和对象交互。他们考虑了整个足球问题的一个子集,训练了一个具有 20 个可控关节的低成本微型类人机器人来玩 1 v1 足球比赛,并观察本体感觉和比赛状态特征。通过内置的控制器,机器人缓慢笨拙地移动。不过,研究者使用深度强化学习将智能体以自然流畅方式组合起来的动态敏捷的上下文自适应运动技巧(如走、跑、转身以及踢球和跌倒爬起)合成为了复杂的长期行为。

在实验中,智能体学会了预测球的运动、定位、阻攻以及利用反弹球等。智能体在多智能体环境中出现这些行为得益于技能复用、端到端训练和简单奖励的组合。研究者在模拟中训练智能体并将它们迁移到物理机器人中,证明了即使对于低成本机器人而言,模拟到真实的迁移也是可能的。

用数据说话,机器人的行走速度提升了 156%,起身的时间减少了 63%,踢球的速度也比基线提升了 24%。

在进入技术解读之前,我们先看一些机器人在 1v1 足球比赛中的精彩瞬间。比如射门:

罚点球:

转向、盘带和踢球,一气呵成:

阻攻:

实验设置

想要让机器人学会踢足球,首先需要一些基本设置。

环境方面,DeepMind 首先在自定义的足球环境中模拟训练智能体,然后将策略迁移到相应的真实环境中,如图 1 所示。环境包括一个长 5 米、宽 4 米的足球场,以及两个球门,每个球门的开口宽度均为 0.8 米。在模拟和真实环境中,球场都以坡道为界,从而确保球在界内。真正的球场上铺有橡胶地砖,以减少摔倒损坏机器人的风险并增加地面摩擦力。

环境设置好后,接着就是硬件和动作捕捉的设置。DeepMind 采用 Robotis OP3 机器人,它身高 51 厘米,重 3.5 kg,由 20 个伺服电机驱动。该机器人没有 GPU 或其他专用加速器,因此所有神经网络计算都在 CPU 上运行。机器人的头部是罗技 C920 网络摄像头,它可以选择以每秒 30 帧的速度提供 RGB 视频流。

方法

DeepMind 的目标是训练可以行走、踢球、起身、防守、懂得如何得分的智能体,然后再将这些功能迁移到真正的机器人身上。DeepMind 将训练分成两个阶段来进行,如图 3 所示。

在第一阶段,DeepMind 针对两种特定技能训练教师策略,这两种技能包括智能体从地面上站起来和进球得分。

在第二阶段,第一阶段的教师策略被用来规范智能体,同时智能体学会有效地对抗越来越强大的对手。

训练

首先是教师训练。教师需要接受尽可能多的进球训练。当智能体摔倒、出界、进入禁区 (图 1 中用红色标记) 或对手得分时,这一回合(Episodes)终止。在每一回合的开始,对智能体、另一方和球在球场上的随机位置和方向进行初始化。双方都初始化为默认站姿。对手使用未经训练的策略进行初始化,因此,智能体在这个阶段学会避开对手,但不会发生进一步复杂的互动。此外,每个训练阶段的奖励及其权重如表 2 所示。

接着智能体与越来越强大的对手竞争,同时将其行为规范到教师策略。这样一来智能体能够掌握一系列足球技能:行走、踢球、起身、得分和防守。当智能体出界或在球门禁区内时,它会在每个时间步受到固定的惩罚。

智能体训练好后,接下来就是将训练好的踢球策略零样本迁移到真实机器人。为了提高零样本迁移成功率,DeepMind 通过简单的系统识别减少了模拟智能体与真实机器人的差距,通过训练期间的领域随机化和扰动提高了策略的鲁棒性,以及包括塑造奖励策略以获得不太可能损害机器人的行为。

实验

1v1 比赛:足球智能体可以处理多种紧急行为,包括灵活的运动技能,例如从地面起身、快速从跌倒中恢复、奔跑和转身。游戏过程中,智能体以流畅的方式在所有这些技能之间转换。

下表 3 为定量分析结果。从结果可以看出强化学习策略比专门的人工设计的技能表现更好,智能体的行走速度快了 156%,起身时间少了 63%。

下图为智能体的行走轨迹,相比之下,由学习策略产生的智能体轨迹结构更加丰富:

为了评估学习策略的可靠性,DeepMind 设计了点球和起跳射门定位球,并在模拟环境和真实环境中实现。初始配置如图 7 所示。

在真实环境中,机器人在罚点球任务中 10 次中了 7 次 (70%),在起射任务中 10 次中了 8 次 (80%)。而在模拟实验中,智能体在这两项任务中的得分更加一致,这表明智能体的训练策略迁移到真实环境(包括真实机器人、球、地板表面等),性能略有下降,行为差异有所增加,但机器人仍然能够可靠地起身、踢球和得分。结果如图 7 和表 3 所示。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

标签:

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表中国财投网的观点和立场。

相关热点

资讯播报

焦点速看:DeepMind为何缺席GPT盛宴?原来在教小机器人踢足球
鸿铭股份(301105)周评:本周涨1.22%,主力资金合计净流出114.06万元 世界快报
世界实时:砂石一方是多少吨_碎石一立方米等于多少吨
中华军魂亮剑歌曲_中国军魂亮剑主题曲
在手机上如何做视频剪辑 如何做视频剪辑|焦点关注
油价降了!加满一箱油省6.5元事件简单介绍
看图学习|数字经济事关国家发展大局|当前独家
众信旅游: 年度股东大会通知
【聚看点】林允儿男友是中国人_林允儿男友
世界热议:国有银行一季度业绩披露完毕 共赚3590.37亿元
早盘:美股涨跌不一 道指与标普指数转涨
喜报!于都杭萧智能生产线正式投产 天天热头条
当前快讯:邓一杰:黄金反复上来,1989在空一次!
中国宝安股东户数增加4.64%,户均持股12.82万元
4月28晚油价下调!加满一箱92号汽油将少花6.5元 环球时快讯
世界最资讯丨金市周评:金价震荡交投,美衰退担忧支撑但FED紧缩预期限制涨幅
美联储青睐的通胀指标超预期,而消费者支出回落 每日速读
重庆百货一季度净利润增近16% 将全面提升六大能力_环球快讯
今日视点:刘天:4.28黄金再次上演冲高回落,美盘如何布局?
【世界独家】联想推出拯救者散热甲板:60W TEC 制冷,售价 799 元
环球观天下!这4位“新疆部”少年,好样的!
“父女”成夫妻?他们藏得太好,孩子8岁了才被人知道两人关系
白色乳胶漆材质参数 vray_白色乳胶漆材质参数
中原按揭:香港今年首季楼价回升7% 预计第二季负资产数字仍维持低水平_世界热文
春节游园活动游戏项目_春节游园活动游戏大全
欧元区避免衰退、通胀抬头,欧洲央行下周加息25个基点定了? 焦点快看
全球动态:一个帝一个口是什么字_一个帝一个口
联创光电(600363):高温超导与激光业务发展迅速助力成长 当前动态
【粤商视野】如何区分“二阳”与甲流?临床专家详解→-当前时讯
重庆:党建统领,基层治理迈向高效能
讯飞星火抢先实测!股价暴涨的科大讯飞真比百度强吗?
武神风暴小说第2515章-武神风暴 小说
外汇周评:日元跌创七周新低,日银新掌门首秀稳中有变-世界速读
安路科技:股东产业基金拟减持不超过公司总股本的2%
歙县三阳镇:科技入户解民忧 示范指导促丰收
当三月三遇上五一,怎么玩才是朋友圈的卷王?手机摄影暨海报设计大赛火热进行中……
贵港加快港产城融合发展取得成效 将迎来出海“双通道”
重点聚焦!甘肃一季度冷冻羊肉产品出口同比增4倍:需求订单持续激增
4月28日欧盘外汇市场行情走势分析:美元指数走高 站上102关口 日元重挫1.6%|热头条
天幕城白天去还是晚上_天幕城和劈柴院那个好_世界要闻
成都温江区幼儿园招生入园工作安排2023(附日程表)
中国旺旺(00151)4月28日耗资1214.8万港元回购243万股
达仁堂:一季度净利润4.01亿元 同比增长100.79% 全球观速讯
焦点要闻:行业图谱 | 2023年中国AIGC行业图谱V2.0,有连云深耕金融AIGC场景应用
香港金管局:3月港元货币供应量M2及M3同时上升1.1% 同比均上升0.9% 环球观点
实时:新闻时评怎么写格式_新闻时评怎么写
俄罗斯原油仍在“流入”欧洲 印度成最大“中间商”
美银:因盈利下滑与就业市场疲软 美股反弹将戛然而止-快报
天天通讯!IPO | 营销服务提供商普乐师集团控股今起招股,拟全球发售2500万股
老雷:我认为梅森还没准备好执教热刺,孔帕尼是很好的人选
全球视点!心浮气躁怎么办 心浮气躁怎么办知乎
桂林:“五一”期间预计超过30万人次乘船游漓江-世界速看料
钓鱼还是被钓?南宁多人沉迷钓“标鱼塘”,有钓友输光积蓄!部门回应
台州五一天台餐饮消费券怎么领?附领取入口-环球热消息
焦点滚动:南安查扣涉渔“三无”船舶30余艘
安理会通过决议:明确谴责塔利班禁止阿富汗妇女为联合国工作|热讯
全员参与比拼,五块石小学第三届劳动技能大赛火热进行中
新政解读:公积金租房提取额度提高 最高不超3000元
【天天聚看点】【金融街发布】外汇局:3月中国外汇市场总计成交25.22万亿元人民币
全球IPO市场疲软之际 东南亚倒是很火爆
连续三年霸榜!极智嘉再度荣登胡润2023全球独角兽榜
注意了!28日起,柳州火车站进出站时间有调整-全球聚看点
这趟“青春专列”出发了,让青年收获幸福感 焦点短讯
崔东树:1-3月汽车行业收入21412亿元 同比增1%|环球看热讯
最资讯丨济宁市国防动员办公室机关党支部组织开展“党章党规党纪专题学习”主题党日活动
寨上街道:“五一”节前排隐患 安全检查不放松|环球新资讯
讯息:姐妹俩“同病相怜”同患十种病 专家:家族聚集性疾病应重视筛查
完美收官!旅游及酒店板块全线上涨,节后切勿盲目追涨
金 融 街(000402):监事会决议
世界热资讯!BeYoung获得480万美元战略投资
AI助阵,领先创新丨智能评价分析·数字员工,开启顶级消费者体验新篇章!
2023年中国品牌日活动将于5月10日至14日举办
群智咨询:一季度全球智能手机出货量同比下降约12.0% 国内市场降幅收窄
《误入浮华》一共多少集每集多长时间 将在哪个平台播出
“五一”迎来消费高峰,南宁12315提醒……
环球焦点!我国西部首座核电站防城港核电站4号机组今天开始冷试 全面进入调试阶段
将世界艺术之美带入生活 斯沃琪的这场展览亮了 天天热讯
世界讯息:国家发改委:4月28日24时起 国内汽、柴油价格每吨分别降低160元和155元
环球即时看!外汇局:2023年3月中国外汇市场总计成交25.22万亿元人民币
“五一”将至,仁怀市场监管局发布消费警示:白酒企业不得有欺骗、误导消费行为-每日动态
200家企业提供近8000个岗位!2023年南宁高校毕业生春季双选会举行 全球速递
鲁能集团:2022年年报净利润发生亏损 环球时快讯
动态:净环境 美家园 青年志愿者在行动
天天热消息:反转已至?面板大厂获大单涌入 出货面积环比将增超两成
一季度乳业弱复苏,伊利董事长今日给出这些新判断
每日视讯:A股日报 | 4月28日沪指收涨1.14%,两市成交额达11169亿元
环球观点:西南油气田输气管理处开展榕山天然气余压发电项目调试阶段检查工作
通讯!国网广元供电公司:默默守护万家灯火 他们被授予“四川省工人先锋号”
环球热讯:超声电子:公司应用于服务器和高性能计算的产品已有供货
央行:一季度人民币贷款增加10.6万亿元 同比多增2.27万亿元
世界视讯!国贸地产西南攻略:豪言“三年必破百亿”,要拿地!
上海社保接入全国统筹系统后,养老金会有变化吗?市人社局回应
2月28日是什么星座_2月20日是什么星座
硅业分会:需求偏弱成交清淡 工业硅价格承压下行
最新快讯!成都市邛崃市开展“2023邛崃市统一战线能力提升培训班”
天天热文:云海金属主板再融资审核状态更新为“已问询”
杰伦-布朗:拿下G6为球队赢得更多时间 不想带着失利回家
焦点速讯:禾多科技与斑马智行达成战略合作,研发「舱驾一体」智能驾驶方案
世界热议:轮番上阵!继昨日河东、东丽上架5宗后,今日武清宝坻成交14亿
【播资讯】游戏ETF(516010),游戏沪港深ETF(517500)异动解读

相关推荐

精彩推送

3