尽管机器学习在诸如围棋和Dota 2等复杂游戏中取得了显著进步,但在这些领域掌握的技能并不一定能推广到真实场景中实际应用。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。
总部位于旧金山的OpenAI公司近日发表的一篇新论文提出,在儿童的“躲猫猫”游戏中训练模型,并在数以千万计的竞赛中使它们相互对抗,可导致模型自动发展出类似人类的行为,从而提高智力并改善后续行动的性能。
为什么选择躲猫猫?
该论文的第一作者、OpenAI研究员博文·贝克认为,躲猫猫被选为一个有趣的起点,主要是因为其规则很简单。所有游戏中的代理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被模拟为球形对象,可执行3种类型的操作:导航、抓住并移动物体、锁定对象,且只能由该代理的队友解锁。
研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。
研究人员使用强化学习来训练游戏代理,并遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻找者成功找到躲藏者。
AI如何玩躲猫猫?
在经过数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。
在初始阶段,躲藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。
在经历2500万个回合后,游戏变得更加复杂。躲藏者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。
然而,在游戏进行了7500万回合之后,寻找者发现了一个反策略。他们学会了在躲藏者的要塞旁边移动一个坡道,并用它来爬过墙壁。
作为回应,躲藏者学会了将坡道移入他们的房间,因此寻找者无法用它来越过墙壁。
随着环境变得越来越复杂,躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然OpenAI认为这将是最终的策略,但在游戏进行到3.8亿回合时,寻找者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,越过墙壁进入堡垒。
在最后阶段,躲藏者学会在建造堡垒之前锁定所有箱子,以防止“箱子冲浪”。
研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的,适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为,这个过程在自然选择方面具有相似之处。
这项研究为啥很重要?
鉴于躲猫猫相对简单的目标,通过竞争性自我游戏训练的多个代理学会了使用工具,并采用人类相关技能来获胜。OpenAI认为,这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境,以鼓励在该领域进一步研究。
OpenAI的最终目标是构建能够在一个通用系统中执行多项任务的人工通用智能(AGI)。虽然可能会有不同的目标,但OpenAI正在大力投资由大规模计算能力实现的强化学习研究。OpenAI最近与微软签署了一份价值10亿美元的为期10年的计算合同。
躲猫猫游戏研究也激发了OpenAI,因为随着环境复杂性的增加,游戏中的代理不断地通过新策略自我适应新的挑战。贝克表示:“如果扩展像这样的流程,并将其放入更复杂的环境中,那么你可能会得到足够复杂的代理,以便为我们解决实际任务。”
挑战在哪里?
游戏代理有时会表现出令人惊讶的行为。例如,躲藏者试图完全逃离游戏区域,直到研究人员对此施加惩罚。
其他挑战可能归因于模拟环境设计中的物理缺陷。例如,躲藏者了解到,如果他们在拐角处向墙壁推动斜坡,斜坡将由于某种原因穿过墙壁然后消失。这种“作弊”说明了算法的安全性如何在机器学习中发挥关键作用。研究人员说:“在它发生之前,你永远不会知道。这类系统总是存在缺陷。我们所做的基本上是观察,以便我们可以看到这种奇怪的事情发生,然后试着修复物理缺陷。”(冯卫东)
标签:最近更新
- 快看:“天灾加人祸”,特斯拉的好日子到头了?2023-01-09
- 【全球热闻】支付宝2023年“集五福”来了 网友:两块钱的大项目2023-01-09
- 全球今头条!马斯克承诺成空谈!推特被裁员工仅获1个月工资补偿2023-01-09
- 微软Xbox老大斯宾塞盛赞索尼:无障碍手柄是对PS生态很好的补充2023-01-09
- 每日资讯:暴雪网易复合几乎不可能:不会降低标准 正和新代理谈的火热2023-01-09
- 苹果砍单“链条”受过 “果链”上市公司另寻出路2023-01-09
- 天天热资讯!紫辉创投郑刚再呛罗永浩:多次退出锤子科技股东群,用新公司股权要挟投资人放弃基本权利2023-01-07
- 投资人炮轰罗永浩“势利眼”,曾参与锤子科技两轮融资,称其是中国乔布斯|全球通讯2023-01-07
- 天天观点:罗永浩发文回应投资人郑刚2023-01-07
- 罗永浩回应郑刚炮轰:锤子每年都开股东会,新公司已给老股东股权补偿2023-01-07
- 蚂蚁集团股东上层结构调整、马云不再为实控人,继续强化与阿里的隔离_全球新要闻2023-01-07
- 二叠纪大灭绝期间紫外线辐射增加?化石花粉粒中“防晒霜”添证据|全球快资讯2023-01-07
- 湖北西部秭归盆地首次发现侏罗纪中期恐龙足迹化石-环球讯息2023-01-07
- 观察:蚂蚁集团大动作!马云退出实控人位置,股东投票权进一步分散,拟引入第五名独董2023-01-07
- 罗永浩回应投资人“炮轰”:郑刚对我的评论毫无事实基础-环球快报2023-01-07
- 网传马云现身曼谷:吃路边摊看泰拳比赛 还上阵打了一通2023-01-07
- 投资人郑刚炮轰罗永浩 全球快看2023-01-07
- 全球实时:蚂蚁强化与阿里隔离 马云股份表决权变了2023-01-07
- 刚刚,蚂蚁集团发布重要公告!_环球快播2023-01-07
- 锤子手机投资人、紫辉创投创始人郑刚深夜炮轰罗永浩:不懂感恩2023-01-07
- 显卡出货量现20年最大跌幅!华强北背包客做副业等回暖,产线已在加大招工2023-01-07
- 蚂蚁集团完善公司治理 不再存在任何股东单一或共同控制集团的情形 环球观天下2023-01-07
- 新冠病毒变异株会如何进化?多位国内病毒学家解读2023-01-07
- 新一批版号获批传递利好,中国游戏市场将迎新一波龙争虎斗2023-01-07
- TikTok CEO周受资将会见欧盟反垄断主管 讨论个人数据保护_最新资讯2023-01-07
- 暴雪四面楚歌,腾讯推魔兽高仿游戏《塔瑞斯世界》,加入中国玩家争夺战 当前速读2023-01-07
- 【全球快播报】AI内容创作火热 深层次应用场景尚待探索2023-01-07
- 为混乱治理甩锅? 马斯克:雇错律师团队是推特员工的错_焦点要闻2023-01-07
- 每日信息:国泰基金王阳:三大市场中国增速最快2023-01-07
- 2022年12月全球制造业PMI为48.6% 连续7个月环比下降_环球热讯2023-01-07