谷歌视觉语言模型可让机器人更自主

业界 | 2023-03-09 10:56:21
时间:2023-03-09 10:56:21   /   来源: 青岛财经日报      /   点击数:()


(相关资料图)

近日,谷歌发布了其最新的语言模型PaLM-E,该模型具有5620亿的参数量(ChatGPT为1750亿参数),是谷歌历史上参数量最大的模型。PaLM-E是迄今为止已知的最大视觉语言模型,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。

据研究团队表示,语言模型越大,在视觉语言和机器人任务训练时就越能保持其语言能力,PaLM-E的5620亿参数量刚好让它保留住了几乎所有语言能力。同时,PaLM-E的正迁移能力也得到了研究团队的验证,同时在多个任务领域训练的PaLM-E,单任务能力相比"专精AI"显着提高。

除了人机交互方面有着重大进展,研究团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力,在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。

此外,PaLM-E还具有对话任务方面的能力。团队将其与已有的对话AI进行了比较,结果显示,PaLM-E 的对话能力相对较强,不仅在生成自然流畅的回复方面表现出色,还可以进行常识性推理和逻辑性推理,具备更好的智能交互能力。

谷歌研究员表示,PaLM-E的发布意味着谷歌正迈向一种更加综合和全面的AI。未来,这种能够同时处理多种任务的通才AI将在工业自动化、智能家居、医疗辅助等领域发挥越来越重要的作用。综合

标签:

最近更新