1.1 自动语音识别:更好的沟通之桥
自动语音识别这项技术已经活跃了五十多年,一直以来都被当作使人与人、人与机器更顺畅交流的桥梁。然而,语音在过去并没有真正成为一种重要的人机交流形式,这一方面是因为过去技术落后,语音技术在大多数用户实际使用场景下还不大可用;另一方面是因为在很多情况下,使用键盘、鼠标这样的形式交流比使用语音更有效、准确,约束更少。
语音技术在近年来渐渐改变我们的生活和工作方式。对某些设备来说,语音成了人与之交流的主要方式。这种趋势的出现和下面提到的几个关键领域的进步是分不开的。首先,摩尔定律持续有效。有了多核处理器、通用图形处理单元(General Purpose Graphical Processing Unit,GPGPU)、CPU/GPU集群这样的技术,现在可用的计算力仅仅相比十几年前就高了几个量级,使得训练更加强大而复杂的模型成为可能。正是这些更消耗计算能力的模型(同时是本书的主题),显著地降低了语音识别系统的错误率。其次,借助越来越先进的互联网技术和云计算技术,我们得到了比先前多得多的数据资源。使用从真实使用场景下收集的大数据进行模型训练,会省去之前的很多模型假设,使得系统更加鲁棒。最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备和系统上进行以往鼠标、键盘这样形式的交互不再像在电脑上一样便捷了,而语音作为人类之间自然的交流形式,在这些设备和系统上成为更受欢迎的交流形式。
在近几年,自动语音识别技术成为很多应用中的重要角色。这些应用可促进人类之间的交流和帮助人机交流。
1.1.1 人类之间的交流
语音技术可以用来消除人与人之间的交流壁垒。在过去,人们如果想要与不同语言的使用者进行沟通,则需要另一个人作为翻译才行。这极大地限制了人们的可选交流对象,减少了交流机会。例如,如果一个人不会中文,那么他(她)独自到中国旅游通常会遇到很多麻烦。而语音到语音(Speech-to-Speech,S2S)翻译系统其实是可以用来消除这些交流壁垒的。微软研究院最近就做过这样一个示例,可以在文献[1]中找到。除了可以应用于旅行,S2S翻译系统也可以整合到像Skype这样的交流工具中。这样,语言不通的人也可以自由地进行远程交流。图1-1列举了一个典型的S2S翻译系统的核心组成模块,可以看到,语音识别是整个流水线中的第一环。
图1-1 典型的S2S翻译系统的核心组成模块
除此之外,语音技术还有其他形式可以帮助人与人之间的交流。例如,在统一消息系统(Unified Messaging System)中,消息发送者(Caller)的语音消息可以通过语音转写子系统转换为文本消息,文本消息继而通过电子邮件、即时消息或短信的方式被轻松发送给接收者来方便地阅读。再如,给朋友发短信时,利用语音识别技术进行输入可以更便捷。语音识别技术还可以用来对演讲和课程的内容进行识别和索引,使用户能够更轻松地找到自己感兴趣的信息。
1.1.2 人机交流
语音技术可以极大地提升人机交流的能力,其中流行应用包括语音搜索、个人数字助理、游戏、起居室交互系统和车载信息娱乐系统。
• 语音搜索(Voice Search,VS)[2-4]>使用户可以直接通过语音来搜索餐馆、行驶路线和商品评价的信息。这极大地简化了用户输入搜索请求的方式。语音搜索类应用在iPhone、Windows Phone和Android手机上已经非常流行。
• 个人数字助理(Personal Digital Assistance,PDA)已经作为原型产品出现了十年,而一直到苹果公司发布了用于iPhone的Siri系统才变得流行起来。自那以后,很多公司发布了类似的产品。PDA知晓用户在移动设备上的信息,了解一些常识,并记录了用户与系统的交互历史。有了这些信息后,PDA可以更好地服务用户。比如,可以完成拨打电话号码、安排会议、回答问题和音乐搜索等工作。而用户只需要直接向系统发出语音指令即可。
• 在融合语音技术之后,游戏的体验将得到很大提升。例如,在一些微软XBox的游戏中,玩家可以和卡通角色对话以询问信息或发出指令。
• 起居室交互系统和车载信息娱乐系统[5]在功能上十分相似。这样的系统允许用户使用语音与之交互,用户通过它们来播放音乐、询问信息或者控制系统。当然,由于这些系统的使用条件不同,在设计这样的系统时会遇到不同的挑战。
在本节中,所有的应用场景和系统讨论的都是口语系统(Spoken Language System)[6]的例子。我们将在1.3节中对口语理解和对话系统的组成进行更详细的介绍。口语对话系统通常包括语音识别、语义理解、对话管理、自然语言生成、语音合成等多个组成部分的一个或多个,所有组成部分对建立一个成功的口语对话系统都是很关键的。在本书中,我们将重点关注语音识别部分,同时在最后几章中,对口语理解和对话管理相关的核心深度学习技术进行介绍,以便读者能够全面了解口语对话系统所涉及的技术全貌。