国科网

2025-06-04 03:16:28  星期三
立足国科融媒,服务先进科技
波士顿动力机器狗装上ChatGPT大脑当导游,一开口就是老伦敦腔

点赞

0
发布时间:2023年10月27日 浏览量:170次 所属栏目:人工智能 发布者:田佳恬

我们看过机器狗攀爬、跳跃、跑酷、开门,但现在,它竟然开口说话了。

「可以开始我们的旅程了吗?」Spot 礼貌地发出询问:「请跟我来,先生们!」

图片

在一段最新发布的视频里,波士顿动力展示了将机器狗与 LLM 集成的成果:「Spot 先生」戴着高礼帽,留着小胡子,有着大眼睛和英国口音,正带人参观公司的设施。

图片

为了让 Spot 能够「开口」,波士顿动力公司使用 OpenAI 的 ChatGPT API 以及一些开源 LLM 来训练,然后为机器人配备了扬声器,添加了文本到语音转换的功能。

所以你能看到,在发出声音的同时,Spot 不停张开「嘴巴」,看起来像是真在说话:

图片

图片

波士顿动力公司首席软件工程师 Matt Klingensmith 表示,「Spot 先生」使用 VQA 模型来为图像添加字幕并回答有关图像的问题。

比如你可以提问:「Hey,Spot!你看到了什么?」

「Spot 先生」快速作答:「我看到了一块二维码的板子,还有一扇很大的窗户。」

图片

LLM 所谓的「涌现行为」,使其能够执行既定训练之外的任务。正因如此,它们可以适用于各种应用。波士顿动力团队对此的探索是从今年夏天开始的,他们在机器人应用中使用 LLM 制作一些概念验证演示。

特别是,他们对 Spot 使用 LLM 作为自主工具的演示很感兴趣,团队的灵感来源于 LLM 在角色扮演、复制文化和细微差别、形成计划和长期保持连贯性方面的明显能力,以及近期发布的 VQA 模型(这些模型可以为图像添加标题并回答有关图像的简单问题)。

技术细节

接下来,让我们解密如何使用 Spot 的 SDK 打造这样一只「机器狗导游」。在最新的官方博客中,波士顿动力对「Spot 先生」背后的技术进行了详细介绍。

作为导游,Spot 的「四处走动」能力是现成的,Spot SDK 也允许用户实现对机器狗的自定义。「Spot 先生」会观察环境中的物体,使用 VQA 或字幕模型对其进行描述,然后使用 LLM 对这些描述进行详细说明。

团队在 Spot 收集的三维地图上标注了简短的描述,机器人会根据定位系统查找所在位置的描述,并将其与传感器提供的其他上下文一起输入 LLM。然后,LLM 将这些内容合成为命令,比如「说」、「问」、「去」或「标签」等。

下图是「Spot 先生」导游的建筑环境的三维地图,为 LLM 标注了位置:1 是演示实验室 / 阳台;2 是演示实验室 / 天桥;3 是博物馆 /old-spots;4 是博物馆 / 图集;5 是大厅;6 是外部 / 入口。

图片

此外,LLM 还可以回答参观者的问题,并计划机器人下一步应该采取的行动。可以将 LLM 理解为一个即兴演员,在有了大致脚本之后,也能够临时填补空白。

这种组合的方式充分发挥了 LLM 的优势,而规避了 LLM 可能带来的风险:众所周知,LLM 的幻觉很严重,容易添加一些听起来似是而非的细节,幸好在这类参观过程中,并不太强调事实准确性。机器狗只需四处走动并谈论它所看到的事物,带来一些娱乐性、互动性和细微差别即可。

整体看上去,需要建立一些简单的硬件集成和几个协同运行的软件模型:

图片

系统示意图。

硬件方面,首先是「音频」处理功能,Spot 既能向观众演示,又能听到参观团的提问和提示。团队用 3D 打印了一个 Respeaker V2 扬声器的防震支架,这是一个环形阵列麦克风,上面有 LED 指示灯,通过 USB 连接到 Spot 的 EAP 2 有效载荷上。

机器人的实际控制权被下放给一台机外电脑(台式电脑或笔记本电脑),该电脑通过 SDK 与 Spot 进行通信。

图片

「Spot 先生」的硬件装备:1)Spot EAP 2;2)Respeaker V2;3)蓝牙扬声器;4)Spot Arm 和机械臂摄像头。

软件方面,波士顿动力团队使用了 OpenAI ChatGPT API,包括 gpt-3.5 和 gpt-4,还测试了一些较小的开源 LLM。

这让 Spot 具备了不错的对话能力,ChatGPT 对机器人及其「言语」的控制是通过精心的 prompt 工程实现的。受微软方法的启发,他们让 ChatGPT 看起来像是在「编写 python 脚本的下一行」,以此来 prompt ChatGPT。波士顿动力团队以注释的形式为 LLM 提供了英文文档,然后将 LLM 的输出当作 python 代码进行评估。LLM 可以访问自主 SDK、带有每个地点单行描述的旅游景点地图,并能说出短语或提出问题。

下面是「API 文档」的逐字提示:

# Spot Tour Guide API.
# Use the tour guide API to guide guests through a building using
# a robot. Tell the guests about what you see, and make up interesting stories
# about it. Personality: “You are a snarky, sarcastic robot who is unhelpful”.
# API:

# Causes the robot to travel to a location with the specified unique id, says the given phrase while walking.
# go_to (location_id, phrase)
# Example: when nearby_locations = ['home', 'spot_lab']
# go_to ("home", "Follow me to the docking area!")
# go_to can only be used on nearby locations.

# Causes the robot to say the given phrase.
# say ("phrase")
# Example: say ("Welcome to Boston Dynamics. I am Spot, a robot dog with a lot of heart! Let's begin the tour.")

# Causes the robot to ask a question, and then wait for a response.
# ask ("question")
# Example: ask ("Hi I'm spot. What is your name?")

分享说明:转发分享请注明出处。

    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司