一款内置谷歌助手的10英寸的联想智能显示器
谷歌Duplex的功能还不限于电话预约,它在完成对话后,谷歌助手还会在日历上记录事件并提醒用户。虽然在面对非常复杂的语句时,谷歌Duplex还是会有一些错误率,但它在技术上已经有了很大的进步。能让一个机器这么流畅地和人类交流,到底要攻克什么样的难关,并运用到什么样的技术呢?谷歌的CEO桑德尔·皮蔡指出,谷歌Duplex是三大技术的融会贯通,即自然语言理解技术、深度学习技术和语言转文字的技术。
以自然语言理解技术为例,人类的自然行为是很难建模的,以“延迟”为例。试着思考一下,我们和其他人对话的时候,什么时候会产生“延迟”,什么时候又要“脱口而出”?比如,当别人对你说“你吃了吗?”的时候,你的反应应当是迅速的、不假思索的,并很快就给出一个简短的回复:“吃了”或者是“没吃”。但是,当别人问你:“你对未来有什么规划?”面对这种问题,你就需要一定的思考时间。当别人问:“37892+58725553是多少?”你可能需要更多的思考时间。这对于我们人类来说本来是一件再自然不过的事,但是对于机器来说,为了模拟人类的交流行为,就需要判断哪些情境是需要延迟的,还要进一步判断具体延迟多少时间较为合适。当人工智能检测到需要“脱口而出”的情境,他就会采用更快,但是精度更低的模型,最极端的情况下,系统的延迟可以仅仅不到100毫秒以内!而当人工智能在回答一个复杂的问题时,它就会适当增加一些延迟,有时还会连带很多语气词,比如“嗯……”“这个……”等。当然,这个“复杂”是对人类而言的“复杂”,比如刚才那道数学题,这对机器来说再简单不过了,但它还是要“装作”遇到了难题,加长延迟的时间,这样才更像一个“人”。