以上的情景绝对不只是畅想,随着老龄化和少子化程度的加深,机器人会越来越多走进老年人家庭,成为智能养老小助手。但是每个老人的脾气、性格、需求各不相同,因此要求机器人能够不断学习,理解老人的隐性需求,真正能够陪伴老人。如何满足这些个性化的需求?从人工智能的角度分析,就要让机器人不断学习,认识老人的家庭环境,理解老人的需求,但是目前,不管是从机器视觉方面,还是自然语言理解方面都面临巨大的挑战。
在英特尔中国研究院2018年媒体开放日上,英特尔的研究人员从计算机视觉、自然语言识别、强化学习等领域分享了英特尔的研究成果,让我们看到未来机器人的发展方向。
目前的技术瓶颈
机器人进入家庭,首先需要认识主人,只有认识了主人才能进行全方位的服务,比如主人习惯什么时候起床,如果起床晚了是否需要进行提醒?喜欢吃什么食物,当家里没有了是否需要提醒子女购买?对于主人和重要物品,目前是基于深度学习,进行大量训练进行识别,但是即使进行了大量训练,可能有时候还会出错,比如针对老花镜进行了一万张图片的训练,人工智能还是有可能认错主人的老花镜。
另外,由于每个家庭的需求不同,机器人无法进行预编译处理,需要个性化定制。比如有些人喜欢静,家里不能随便走动,有些人喜欢动,需要随时满足主人的呼唤。主人的起床时间不同,无法预先编程,需要根据个人的特点进行观察。因此,做好机器人不仅需要人脸识别、底层语义分析,还需要高层语义分析,从而让机器人的智能程度满足个性化需求。
进入家庭后需要自主学习
现在的人脸识别一般是对正脸进行识别,对于侧脸识别可能就没有那么灵了,如果在家中机器人只能识别正脸将会发生很多尴尬,用户的交互体验也会大打折扣,因此有人想出了通过人体特征进行辨识,比如衣服,但是当主人换了衣服机器人又无法辨识。英特尔所采取的方式是将人脸特征和人体特征相结合,人体特征不需要预先把人各种各样的衣服都要看一遍或者姿态看一遍才能认,通过人体特征认人,而是通过人脸开始不断地自我学习,机器人刚开始通过人脸识别主人,经过一周的交互和观察,可以从各个角度把主人准确地识别出来。
因为主人可能会换衣服,机器人还会发生错误,这时候机器人需要和主人主动交互,把可能的错误进行确认,这是自我学习的认人功能。同时,英特尔还研发了一些自适应物体识别,比如:药瓶,通过对一帧的图像标注之后,把物体在线建一个模型,后续可以把这个物体的边界准确的分割出来,这等于认识物体是可以通过向用户学习的过程实现。
机器人的主动学习和强化学习
让机器人理解:“昨天我在客厅里吃药,药瓶去哪里了?”
在家庭生活中,王爷爷可能问机器人:昨天我在客厅里吃药,药瓶去哪里了?这个问题貌似非常简单,可能三岁小朋友也能理解,但是对机器人来说里面有很难跨越的技术鸿沟。其中王爷爷是对人的识别,吃药是动作识别,药瓶是物体识别,这些需要底层识别模块来实现。再看“昨天”和“客厅”这两个关键词,客厅是对空间的理解,昨天是对时间信的理解。如何让机器人理解这句话?首先最底层要进行人物识别、物体识别、情绪检测、动作检测,接下来,有一个三维语义环境,就是把底层检测到的信息和物理环境对应起来,比如人在什么位置,物体在什么位置,这件事发生在什么位置,这些信息只有在三维语义环境的模块中对应上,机器人才能够理解事件发生的意义。
英特尔利用三维语义环境和个性化知识库这两个模块来解决这些问题,从底层的感知模块走到应用,但是底层的感知模块不可能做到百分之百精准。这个错误会往上层传播,到了空间层,我们希望把底层的这些信息打上空间智能的标签,位置跟空间相对的情况,包括跟空间的三维建模,都是在这一层次进行的。理想的情况机器人到了家里,马上建立空间模型,并且能够理解空间的含义。到了知识库层面,能够很好的记忆这个知识,基于这个知识进行推理、应用,但是目前的技术还存在问题,不可能做到百分之百精准。
三维语义环境所做的是从感知层得到信息,比如药瓶的位置,用坐标的方式标记出来,接下来空间智能要理解这个空间是客厅还是餐厅,到 这一层次才能跟人交流,进而判断出客厅,然后顺利在客厅找到药瓶。可以看出,空间智能主要的工作是快速对空间进行建模,并理解这个空间。关于个性化的知识图谱,主要功能是记忆和推理,所面临的最大挑战来自于我们想记录的知识。人类知识分两块:一块是稳定的知识,就像谷歌和Facebook力图想存的知识,谷歌叫Google Graph,这些知识可以事先做好,并且经过专家审核;另外一种是个性化知识,是动态变化的,机器人来到家庭之前无法提前获取,为了获取这样的知识,我们的挑战必须要有一个合适的知识表示,合适的知识推理,而且这个知识图谱要能容忍底层产生的错误。
强化学习让机器人能够完成主动服务
当机器人能够理解语言的时候,说明机器人已经具备了和人沟通的能力,但是想要实现真正的照顾别人,机器人需要更深的理解能力,不光是被动地去服务,还能主动的猜测主人的意图。从王爷爷的例子来看,当王爷爷需要药瓶时机器人可以拿给他是一种情况,如果机器人看到王爷爷在找东西,能够猜测他想找药瓶还是找水,就能提供主动服务。这里会用到强化学习,它教给机器人三个功能:一是如何学习新的能力;二是如何做的一次比一次好;三是如何主动地提供正确服务。
关于一次比一次做的好这一点,需要通过小样本的强化学习来解决。我们希望机器人一次比一次做得好,需要猜测,而猜测本身也是需要优化的。猜测的目的主要有两方面,一是有时候不能进行标注,比如王爷爷走向桌子可能是找水,走向柜子可能是找药,但是这个事情无法去标注,机器人需要去主动采集样本,通过回报自己进行标注。强化学习需要不断探索和优化,从而让机器人更加智能。
当然,机器人的学习还面临巨大的挑战,比如:人的关节都是全向关节,而机器人不能做到这一点,每一个关节只能向一个方向旋转。如果我们希望把人的一个动作映射到机器人上,需要做一个推广,使它能够适应机器人独特的运动特性。另外,我们应用时还要考虑到采样成本的预算,当学习一个新的性能时,机器人必须一次学会。我们需要考虑采样成本和比较更高级的需求,来达到对于实际机器人学习来说可用的程度。
关于人工智能会替代人类的说法已经深入人心,曾经引来一波恐慌,听完英特尔研究院的工程师讲解,笔者觉得那个时代还很遥远,机器人需要经过漫长的自我学习才能达到熟练理解空间和语义的阶段,要实现真正的智能似乎还需要计算能力和存储能力的进一步的提高,硬件技术和软件算法还需要很大的进步空间。