开源版「我的世界」,用浏览器就能跑
「Biomes」是一个为Web构建的开源沙盒MMORPG(大型多人在线角色扮演游戏)。只需打开浏览器,就可以建造、采集、玩小游戏等等。
而对于OpenAI来说,其实早在2022年的时候就提出了一种全新的VPT「视频预训练模型」,能够让AI学会了在「我的世界」里从头开始造石镐。
而整套流程需要一个骨灰级玩家至少20分钟的时间才能完成,总计要操作24000次。
具体来说,研究人员首先收集一波数据标注外包们玩游戏的数据,其中包含视频和键鼠操作的记录。
VPT方法概述然后,利用这些数据制作逆动力学模型(inverse dynamics model,IDM),从而推测出视频里每一步在进行的时候,键鼠都是怎么动的。这样,整个任务就变得简单多了,只需要比原来少很多的数据就可以实现目的。
基础模型训练数据对微调的影响在训练了70000个小时以后,OpenAI的行为克隆模型就能实现其他模型做不到的工作了。比如,怎么砍树收集木头,怎么用木头做木条,怎么用木条做桌子。而这一套事儿需要一个比较熟练的玩家操作小50秒的时间。
除了做桌子,模型还能游泳,打猎,吃东西。甚至还有「跑跳搭」的骚操作,也就是起跳的时候脚下放个砖块或者木块,跳着跳着就能搭个柱子。这属于是骨灰级玩家的必修课了。
「跑跳搭」简陋版而难度更大的制作钻石镐,则需要一系列漫长而复杂的子任务。为了使这项任务易于处理,研究人员为序列中的每个项目奖励智能体。
他们发现,利用传统方法训练的RL策略几乎没有获得任何奖励,从不学习收集日志,而且很少收集木棍。与之形成鲜明对比的是,基于人来数据微调后的VPT模型不仅可以学习如何制作钻石镐,而且在收集所有物品方面的成功率,甚至达到人类水平。
制作石镐对此,有网友认为OpenAI Gym playgrounds就是一个「我的世界」。