1.1 自动语音识别：更好的沟通之桥_人工智能：语音识别理解与实践-QQ阅读现言女生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1　自动语音识别：更好的沟通之桥

自动语音识别这项技术已经活跃了五十多年，一直以来都被当作使人与人、人与机器更顺畅交流的桥梁。然而，语音在过去并没有真正成为一种重要的人机交流形式，这一方面是因为过去技术落后，语音技术在大多数用户实际使用场景下还不大可用；另一方面是因为在很多情况下，使用键盘、鼠标这样的形式交流比使用语音更有效、准确，约束更少。

语音技术在近年来渐渐改变我们的生活和工作方式。对某些设备来说，语音成了人与之交流的主要方式。这种趋势的出现和下面提到的几个关键领域的进步是分不开的。首先，摩尔定律持续有效。有了多核处理器、通用图形处理单元（General Purpose Graphical Processing Unit，GPGPU）、CPU/GPU集群这样的技术，现在可用的计算力仅仅相比十几年前就高了几个量级，使得训练更加强大而复杂的模型成为可能。正是这些更消耗计算能力的模型（同时是本书的主题），显著地降低了语音识别系统的错误率。其次，借助越来越先进的互联网技术和云计算技术，我们得到了比先前多得多的数据资源。使用从真实使用场景下收集的大数据进行模型训练，会省去之前的很多模型假设，使得系统更加鲁棒。最后，移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行，在这些设备和系统上进行以往鼠标、键盘这样形式的交互不再像在电脑上一样便捷了，而语音作为人类之间自然的交流形式，在这些设备和系统上成为更受欢迎的交流形式。

在近几年，自动语音识别技术成为很多应用中的重要角色。这些应用可促进人类之间的交流和帮助人机交流。

1.1.1　人类之间的交流

语音技术可以用来消除人与人之间的交流壁垒。在过去，人们如果想要与不同语言的使用者进行沟通，则需要另一个人作为翻译才行。这极大地限制了人们的可选交流对象，减少了交流机会。例如，如果一个人不会中文，那么他（她）独自到中国旅游通常会遇到很多麻烦。而语音到语音（Speech-to-Speech，S2S）翻译系统其实是可以用来消除这些交流壁垒的。微软研究院最近就做过这样一个示例，可以在文献[1]中找到。除了可以应用于旅行，S2S翻译系统也可以整合到像Skype这样的交流工具中。这样，语言不通的人也可以自由地进行远程交流。图1-1列举了一个典型的S2S翻译系统的核心组成模块，可以看到，语音识别是整个流水线中的第一环。

图1-1　典型的S2S翻译系统的核心组成模块

除此之外，语音技术还有其他形式可以帮助人与人之间的交流。例如，在统一消息系统（Unified Messaging System）中，消息发送者（Caller）的语音消息可以通过语音转写子系统转换为文本消息，文本消息继而通过电子邮件、即时消息或短信的方式被轻松发送给接收者来方便地阅读。再如，给朋友发短信时，利用语音识别技术进行输入可以更便捷。语音识别技术还可以用来对演讲和课程的内容进行识别和索引，使用户能够更轻松地找到自己感兴趣的信息。

1.1.2　人机交流

语音技术可以极大地提升人机交流的能力，其中流行应用包括语音搜索、个人数字助理、游戏、起居室交互系统和车载信息娱乐系统。

• 语音搜索（Voice Search，VS）[2-4]>使用户可以直接通过语音来搜索餐馆、行驶路线和商品评价的信息。这极大地简化了用户输入搜索请求的方式。语音搜索类应用在iPhone、Windows Phone和Android手机上已经非常流行。

• 个人数字助理（Personal Digital Assistance，PDA）已经作为原型产品出现了十年，而一直到苹果公司发布了用于iPhone的Siri系统才变得流行起来。自那以后，很多公司发布了类似的产品。PDA知晓用户在移动设备上的信息，了解一些常识，并记录了用户与系统的交互历史。有了这些信息后，PDA可以更好地服务用户。比如，可以完成拨打电话号码、安排会议、回答问题和音乐搜索等工作。而用户只需要直接向系统发出语音指令即可。

• 在融合语音技术之后，游戏的体验将得到很大提升。例如，在一些微软XBox的游戏中，玩家可以和卡通角色对话以询问信息或发出指令。

• 起居室交互系统和车载信息娱乐系统[5]在功能上十分相似。这样的系统允许用户使用语音与之交互，用户通过它们来播放音乐、询问信息或者控制系统。当然，由于这些系统的使用条件不同，在设计这样的系统时会遇到不同的挑战。

在本节中，所有的应用场景和系统讨论的都是口语系统（Spoken Language System）[6]的例子。我们将在1.3节中对口语理解和对话系统的组成进行更详细的介绍。口语对话系统通常包括语音识别、语义理解、对话管理、自然语言生成、语音合成等多个组成部分的一个或多个，所有组成部分对建立一个成功的口语对话系统都是很关键的。在本书中，我们将重点关注语音识别部分，同时在最后几章中，对口语理解和对话管理相关的核心深度学习技术进行介绍，以便读者能够全面了解口语对话系统所涉及的技术全貌。

1.1 自动语音识别：更好的沟通之桥

1.1.1 人类之间的交流

1.1.2 人机交流

1.1　自动语音识别：更好的沟通之桥

1.1.1　人类之间的交流

1.1.2　人机交流