机器人会有意识吗?
计算机技术正节节逼近拥有高级智慧的人类。IBM的机器人沃森在美国智力竞赛节目“危险边缘”中力挫该节目史上最出色的两位选手而夺冠便是明证。然而,绝大多数人至今仍怀疑电脑是否真的“看清”了摄像头前形形色色色的真实世界,或者通过麦克风“听懂”一个问题,尽管计算机处理数据的速度极快,但计算机对外界的感知与人类的意识一样吗?
那么,我们如何判断一台机器是否具备了这种难以言传的意识知觉的禀性?我们依赖于这样一种认识:只有具备意识的机器才能主观描述普通照片里的场景是“对”还是“错”。这种综合判断照片内容的能力——比如看见大象蹲在埃菲尔铁塔顶端,就能够知道这不合情理——是构成意识思维的一种基本属性。但现在机器尚不具备这种能力:即使是让满满一房间的IBM超级电脑联手上阵,也无法判断画面中哪些内容合乎情理。
弄清有意识的机器具备哪些特性,能让我们了解自己的大脑是如何运作的。而且,像科幻小说预测的那样,当人类终有一天不得不学会与自己亲手打造的另一类有意识的生灵共舞时,对机器意识的认识也有助于我们作好准备。另外,它甚至还可能帮助我们回答数哲学家已经纠结数百年的终极问题:什么是意识?
真人还是假人?
长期以来,哲学家一直在思考,人造模拟装置——无论是希伯来神话中的假人,还是箱子中的机器——有没有感觉?1950年,英国数学家阿兰·图灵(Alan Turing,他曾在二战中破译过纳粹潜艇部队所使用的Enigma密码)发表了一篇论文,宣告人工智能正式登上历史舞台。Mind杂志曾刊载过他的一篇文章,该文建议用“能否打造出一类机器,当你和它用电传打字机(Teletype)交流时,你无法区分它是不是人类”这个更为实际的问题,来代替“机器是否能够思维”这个笼统的问题。
如今的图灵测试(Turing test)是让测试者用“自然语言”(即我们平时交流所用的语言)通过电脑屏幕与某人或某款软件互动,互动内容可涉及任何话题。一定时间后,如果测试者无法确定对方是不是人类,那么该对象就算通过了图灵测试,它的智力水平至少可以说与人不相上下。这些年来,聊天机器人——即用来模拟智能闲聊的对话式程序——一开始偶尔也会骗过测试者,但要不了多久就会被识破。
我们两人对大脑如何产生主观体验颇有兴趣,但我们不是以计算机科学家的身份,而是以神经生物学家的身份接触到机器意识这个问题的。我们对自愿者的大脑或神经障碍者的大脑进行了扫描,或者是通过脑电图记录他们的脑电波。我们也对啮齿目动物和其他动物的大脑进行过类似观察。通过这些观察,我和许多同事逐步锁定了所谓的意识神经相关因子(neuronal correlates of consciousness,NCC),即一种最基本的大脑功能结构,它们共同作用,足以引起任何特定有意识感觉,例如欣赏绚丽的夕阳美景。然而目前这个研究领域仍然缺少一种普遍性理论,我们要靠这种理论从原则上来评估大脑受损患者、胎儿、老鼠乃至芯片等是否会体验到有意识的感觉。
“意识的整合信息理论”(integrated information theory of consciousness,IITC)提供了应对上述挑战的途径。此理论涉及意识的一个关键因素。许多人都有一种直觉,认为构成日常生活经验的各种主观可感知的状态,比如说每个人以极具个性的方式闻、看、思考、回忆的体验,肯定或多或少与大脑的综合功能有关,或者说与大脑把输入感觉信号同大脑中记忆的信息整合成一幅紧凑连贯的外界图景这一功能有关。但我们如何能把这种直觉提炼成更加精确的见解呢?
为了适应这种精确化的要求,整合信息理论提出了两条原则。第一,意识独特而翔实。这是因为每种具体意识状态一旦出现,其他许多可能状态就会被排除,而此状态与每一种被排除的状态都有着特殊的区别。试想你看过的所有电影中的所有画面。每一帧画面,每一次观看,都是一个特殊的意识截图;当你看到这帧画面时,你的大脑就排除了其他数万亿幅可能的画面。即使在黑暗的房间里醒过来后睁眼一看(这似乎算得上最简单的视觉体验了),那漆黑的感觉仍在暗示你看到的不是光线明亮的客厅,不是茂密的热带丛林,也不是其他无数可能出现在你脑海中的任何一幅画面。
第二,意识信息是一个整体。当你意识到朋友的脸庞时,你不可能遗漏了她正在呼喊并且戴着眼镜这两个细节。无论你如何努力,你都不可能将你看到的内容的左右两部分分开,或者把它们变成黑白两色看。无论是什么样的场景,只要被意识到,它就始终是一个整体,不能被分解成若干可以单独被感受到的互相独立无关的成分。
意识的这种整体性源自于大脑各部分之间的多种互动关系。如果大脑各部之间的联系中断(例如在麻醉和深度睡眠中),意识就会削弱,甚至消失。
因此,具备意识的,必须是一个单一的、经过整合的实体,有大量可区分的状态——这正是信息的定义。一个系统的整体信息容量,也就是意识容量,可以用该系统的信息量与它各组成部分拥有的信息总量相比超出多少来衡量。这个量称为Φ;原则上任何系统,不论是大脑、机器人还是可手动调节的恒温器,它的Φ都是可以计算出来的。可以把Φ设想为对一个系统的“不可约性”(即不能化简为单纯的若干部分的集合这一特性)的度量,单位为比特。要想使一个系统具有较高的Φ值和较高的意识级别,它的各个组成部分就必须是专业化的,并且整合充分,即各部分协同工作比各自单独运行效果更佳。
如果系统各部分较为独立,例如数码相机的各个传感器或电脑内存中的数据,则它的Φ值必然较低。如果各部分功用相同,没有走专业化的路线,因而出现冗余,这样Φ值也不会高。如果系统各部分仅是随机互联,它的Φ值仍然会相当低。但对于大脑的某些部位,例如大脑皮层,它的神经元之间存在大量特定连接,Φ值则相当高。这个衡量系统整合度的指标也可以用来评估电脑芯片。对电脑来说,只要各晶体管以及存储单元之间的连接足够复杂,那么它就同人脑一样可以达到很高的整合信息水平。
除了根据机器的连接状况测量Φ值以外(这非常困难),我们怎么知道一台机器是不是有意识呢?什么测量方法可行?一种测试机器的信息集成度的方法是,让机器来做一个6岁小孩也能完成的题目:“这幅画里有什么地方不对劲儿?”要解决这个简单的问题,就得拥有海量背景知识,比现今高档电脑在执行识别人脸、追查信用卡欺诈之类任务时所依靠的那点知识,不知多了多少倍。
各种事物或天然景色的画面,其画面内各像素以及各事物间存在着千丝万缕、极其错综复杂的关系,怪不得有格言云“一幅图抵得上一千句话”。 人类视觉系统的进化、幼年期内的神经发育以及每个人一生的经历,使我们能立即判断出画面内所有成份是不是组合得协调一致,各个部分的质地、深度、色彩及其相互的空间关系是不是合乎情理。
计算机在分析图像中的信息是否合理时,必须依靠强悍的处理能力,这种能力远远超过了对数据库进行简单语言查询的级别。说起玩高级游戏,电脑可以让人甘拜下风,但如果问电脑一张照片有些什么问题,它就无计可施了。信息整合度可以帮助我们解读这是为什么:虽然最新电脑中的硬盘容量远远超出了我们毕生所能记忆的东西,但硬盘上的信息依然是未整合的,系统中的每一单元同其他元素基本没有关联。
透明奶牛
比如说,在你的电子相册里有一张办公桌照片。但电脑并不知道,在通常杂乱无章的办公桌上,左边放iMac而右边放iPad是否合情合理。更糟的是,电脑不知道虽然iMac和iPad摆在一起尚属般配,但如果盆栽植物出现在本应放键盘的地方,就完全不靠谱了。此外,电脑也不知道iPad绝对不可能飘浮在桌面上方,亦不知道该照片左右两部分搭配是否合理。在电脑眼中,所有像素仅代表三个数字(分别对应三种颜色),它们胡乱构成一张织锦,没有具体内涵。但对你而言,相片各部分之间在多个层次上——从像素到物体再到场景——都存在千丝万缕的关联。这些关系不仅确立了图像中哪些地方搭配合理,也揭示出哪些内容之间格格不入。我们的理论认为,由无数相关知识构成的整合网络把每幅图像都与其他图像区别开来,赋予它独特的个性,并使我们能够形成对周围世界的意识。
同样的整合过程甚至能让六岁小孩知道许多不协调的画面是荒谬的,比如人在地毯上溜冰,奶牛变得透明,或者猫追咬狗之类。而确定一台电脑是否有意识的关键也正在此处。这些明显跟日常生活体验背道而驰的现象,证明了人类拥有精深的知识,知道哪些事件和物体可以同时出现,而其他绝大多数则不行。
测试电脑如何解读图像,并非必须采用向机器输入测试问题这样的传统的图灵测试法。其实你只须在网上随便找几幅图,沿垂直方向将每幅图的中间涂黑,并用剪刀剪开,然后随机将左、右两部分拼合起来。这些合成图像一般都左右不匹配,只有个别图片的左右两部分都来自同一张图。电脑面临的挑战,就是要把左右匹配的图片找出来。把图像中央涂黑,是为了防止电脑使用如今那些低级的图像分析技巧,比如说考察被拆散的各部分图像之间的纹理或色彩是否相配。这种基于拆分图像的测试方法要求电脑具备先进的图像解读技术,并能够推断图像各部分的搭配是否和谐。
另外一种测试则是将若干物体放进几幅图像中,使得所有图像看起来都还正常,只有一幅图像有问题。接受测试的电脑必须找出这个异类。榔头放在工作台上很自然,它绝不该悬在半空。iMac前面放着键盘也理所当然,但如果是盆栽植物,那就不合适了。
许多计算机算法是通过收集颜色、边缘或纹理之类图像特征,并采用低层次统计数据进行匹配。这些方法或许还能应对单一测试,但在多种不同图像测试面前,就无能为力了。这些测试方法离真正实用还有一段距离,但是,在应用这些方法后,我们发现,人类的意识感知功能涉及到海量的整合知识,而相比之下,机器视觉系统的知识实在是太过狭窄和专业化。不错,现今的电脑可以从储存有上百万张脸部图像的数据库中搜索出某个疑似恐怖分子的面孔,但它们看不出此人的年龄、性别和种族,也看不出他是在皱眉还是在微笑。如果照片显示此人正在与乔治·华盛顿握手,那么电脑也不会知道这张照片多半已经被人PS过。而对于一个有正常意识的人来说,只要看一眼照片,上述疑问全部迎刃而解。
了解这些后,我们近期可以期待些什么呢?如果某项任务可以独立出来,不与其他任务有牵连,那么它可以由机器来承担。高速算法能够飞快地在庞大的数据库中进行搜索,并在国际象棋比赛和“危险边缘”节目中战胜人类选手。复杂的机器学习算法经过训练(即让电脑接触大量人为整理过的相关实例)后,可以完成面部识别或者侦测行人等工作,效率比人类更高。我们可以轻松地想出许多场合,让机器人去完成日益专业化的任务。先进的计算机视觉系统日臻成熟,不出十年,一种可靠的、基本上自主的驾驶模式将成为可能。
但我们估计这类机器视觉系统还无法回答与汽车前方景象相关的简单问题:在高速公路上远望,芝加哥那一座座摩天大楼的轮廓线是不是有点像一片烧焦的树林笼罩在薄雾中?这些系统也不会意识到,加油站旁边的一只巨型香蕉是那么的不协调。要回答这些问题,以及无数其他问题,或者要看出那只香蕉的问题,需要使用不计其数的专用软件模块,但谁会为这些特殊问题而事先制作一大堆专用软件模块呢?如果我们猜测得不错,在未来,尽管基于专用并行模块的高级机器视觉系统会使汽车驾驶基本实现自动化(同时也可以简化其他许多日常工作),但仍然不会有意识地感受到出现在它前面的场景。
但我们也可以设想另一类机器,它可以把世上各种事物间无数错综复杂的关系整理成知识并纳入高度整合的单一系统中。如果问这类机器“这幅图有什么地方不对劲儿?”,它会自动给出答案,因为图中任何如现实不符的地方都不可能满足系统中的内在约束条件。
这类机器或许可以从容应对那些不能轻而易举分解为若干独立任务的事情。由于具备整合信息的能力,它应该会有意识地感知某一场景。在我们看来,为了实现高度的信息整合,它们不妨借鉴哺乳动物的大脑结构。这类机器在接受上述各种测试时将轻易过关,从而能与我们共享意识这个大自然赐予人类的最神秘礼物。