我的机械网

搜索
查看: 1056|回复: 6

人工智能通过阅读故事学习人类价值观

[复制链接]

74

主题

-74

回帖

-15

积分

限制会员

积分
-15
发表于 2017-9-6 21:20:40 | |阅读模式
各位网友请注意:我的机械网所有附件、百度网盘提取码、机械资料、PDF资料、压缩包文件均需要回帖后才能下载!
人工智能(AI)的快速发展让许多人开始害怕机器人是否会做出不符合人类伦理的事情,并危害全人类。一些人甚至要求政府禁止机器人方面的科学研究。还有一 些人则呼吁对AI进行更多研究,以理解应该怎样更好地管理AI。但是,如果我们没有一本「如何做人的说明书」,机器人如何才能学到符合伦理的行为呢?

乔治亚理工学院人机交互系的研究者Mark Riedl 和 Brent Harrison相信,这个问题的答案就藏在一个名为「Quixote」的系统中--这个系统于2月中旬发布在凤凰城举行的AAAI-16会议上。 Quixote将「价值定位」教给机器人,采用的方法是训练机器人阅读故事,学习其中的事件序列并理解如何在人类社会中做出正确的行为。
娱乐智能实验室的助理教授Riedl说:「不同的文化中都有很多故事,通过寓言、小说和其他文学体裁教孩子们哪些行为在社会中是合宜的,哪些是不合适的。我们相信,让机器人理解故事,能消除那些看起来像精神病的行为,并巩固那些能获得预期目标又不会伤害人类的行为。」
Quixote用人类价值观来校准AI目标,使用的方法是奖赏那些具有合宜社会性的行为。这个系统构建于Riedl过去的一项研究--谢赫拉莎德系 统(Scheherazade system),这个系统表明AI能够在互联网上通过众包故事情节的方法,收集正确的行为序列。
谢赫拉莎德系统学到了什么是正常的或者说「正确」的情节图谱。它将这个数据结构交付与Quixote,后者再将其转化为「奖赏信号」,用在试错学习 过程中,以强化某种特定的行为,并惩罚其他的行为。从本质上说,Quixote学到了当它的行为表现得像故事中的主角而不是反派人物或随机做事时,它将获 得奖赏。
比如说,如果你交给机器人一个任务,让它尽快为一个人类取到处方药,它可能有以下几种行为的可能性:a)抢劫一个药店,拿到药,然后逃跑;b)与药 剂师礼貌地沟通;c)排队。如果没有价值定位和正向增强,机器人可能会抢劫药店,因为那是完成任务最快也是最便宜的方法。有了Quixote的价值定位, 如果机器人耐心地排队,并为药品付钱,它将获得奖赏。
Riedl 和 Harrison在他们的研究中验证了如何产生这种价值奖赏信号来揭示一个给定情境中所有的可能步骤,并将其映射到一个情节轨迹树。接着,机器人会用情节轨迹树来做出「情节选择」(有点像《惊险岔路口》那种分支情节),并基于该选择获得奖励或惩罚。
Riedl 说,Quixote技术适用于那些目标单一但需要和人类互动的机器人,它是通往AI通用道德推理的必经之路。
他补充说:「我们相信,AI必须要适应文化,适应某个特定社会的价值观。要实现这一点,它必须尽量避免不被接受的行为。由于我们并没有一本《人类使用手册》,所以让机器人拥有阅读和理解故事的能力,或许是最方便的方法。」

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 一键登录:

x
发表于 2017-12-20 09:48:38 |
earth明星201谢谢赤甲红提供的资料。
发表于 2018-12-13 03:13:09 |
zhaodong2008
发表于 2020-4-15 22:43:29 |
很棒,继续加油

0

主题

5599

回帖

4万

积分

论坛元老

Rank: 8Rank: 8

积分
41660
发表于 2021-12-2 19:33:59 |
每天顶顶贴,一身轻松啊!

0

主题

5445

回帖

3万

积分

论坛元老

Rank: 8Rank: 8

积分
37022
发表于 2021-12-2 19:33:59 |
雷锋做好事不留名,都写在帖子里!
发表于 2021-12-4 09:07:55 |
今天的心情很不错啊
快速回复 返回顶部 返回列表