虚拟助手在用户发出命令后就会作出语音回复。而生成语音回复的技术被称为文本转语音(TTS)。
TTS 应用能够让辅助器具使用者访问更多内容,因此非常实用。最新的 TTS 技术可以从一段几分钟的音频数据中生成合成声音,非常适合仅留存了有限录音的失音者。
事实上,TTS 的应用正在因技术进步而不断增长:
(相关资料图)
在几毫秒内运行端到端 TTS 流程,以实现自然互动。
在推断时自定义 AI 模型和流程,以产生具有表现力的合成语音。
部署在所有云、数据中心、边缘或嵌入式设备上。
本文将说明语音合成系统如何运作,然后介绍 TTS 技术的常见用途和新用途。
顾名思义,文本转语音或语音合成是将书面文本转换成自然、类似人类的语音音频的过程。在端到端 TTS 流程中用于实现这一转换的关键模型和模块包括:
文本规范化和预处理:将数字和缩略语变成文字。
文本编码:将文本转换为输入到声谱图生成器的编码向量。
声谱图生成器:从编码文本向量中生成声谱图。
语音编码器模型:输入声谱图并生成一个人们可以听到的合成语音。
一般来说,TTS 是虚拟助手、数字人和服务机器人等应用的最终阶段。
2021 年 IDC 对话式 AI 采用情况调查共调研了 251 家公司,其中 74.5% 在语音对话式 AI 解决方案中使用 TTS,68.5% 在无障碍解决方案中使用 TTS(图 1)。
图 1. IDC 关于常见 TTS 用例的调查
语音合成的功能用途正得到许多行业的认可,人们可能已经看到过以下 TTS 技术用例。
虚拟网红
虚拟网红正在改变未来与企业或名人沟通的方式。虚拟网红也称为虚拟品牌大使或品牌代言人,它们可以协助公司推广产品和服务,名人也可以通过它们与粉丝保持全天候的联系。
在这些用例中 TTS 技术生成了自定义声音,然后被整合到动画虚拟网红或数字大使身上。
文本叙述
文本叙述能够大声朗读所有类型的文本。这项 TTS 功能可用于网站及阅读类应用,为喜欢音频类节目的人带来了福音。有视觉障碍的人也可以使用文字叙述听到他们喜欢的内容。
TTS 用于在这些应用程序上将文本转换成语音并朗读出来。但这项工作并不像表面上那么简单。为了提升收听体验,此类应用的声音必须抑扬顿挫、富有节奏和表现力。
对于生活在现代社会的人来说,最流行和具有吸引力的媒介莫过于音频和视频内容。TTS 技术可以帮助内容创作者为视频配音或创建播客。
为了获得更多的受众,创作者还可以使用 TTS 技术将博客、新闻文章等文本内容转换成音频。
TTS 的使用十分灵活,用户可以在变声器等应用中改变语音的音调、节奏和音量,使声音变得更具表现力。
独特的 TTS 应用
除了这些日常应用外,企业家们正在探索各种新颖的 TTS 应用。下文将介绍开发独特语音合成技术的公司。
用于智慧医院的语音通知亭:Artisight
Artisight是一个应用于医院的物联网传感器网络,可改善医院的运营、财务业绩和患者体验。该公司帮助美国许多顶尖医院提高运营效率,同时通过任务自动化给患者带来更好的体验,比如呼叫患者到挂号窗口和化验等。
医院可以使用 TTS 技术与患者和访客分享有关医院服务、设施位置和一般健康公告的信息。该技术也可以使用多种语言帮助可能不会说医院当地语言的人。
上面的视频演示了医院通知亭的文字转语音技术如何读出患者排队单上的号码。
挑战和解决方案
过去,医院接待人员需要手动登记患者信息并在轮到患者就诊时通知他们。这种耗时的登记流程降低了医院的效率和患者的满意度。
Artisight 开发的语音签到、通知亭等智慧医院解决方案可提升患者的体验。
Artisight 和 NVIDIA Riva赋能的通知亭实现了有效、快速的患者登记流程,将等待时间缩短了一半并避免了数据输入错误,最终提高了员工的工作效率和患者的满意度。
TTS 技术使计算机能够将书面文字转换成语音,进而让数字人能够“开口说话”并以更加自然、有代入感的方式与用户交流。
为了取得用户的信任,数字人所说的话必须高度准确,尤其是当它们被用于教育、娱乐或其他互动用途时。使用 TTS 技术生成自然、类似人类的语音可以帮助数字人吸引用户的注意力和兴趣。
正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虚拟形象Toy Jensen能够理解黄仁勋的问题并作出自然的回答。Toy Jensen 的声音使用 NVIDIA Riva 创建。
视频 2. 用于构建实时、交互式 AI 助手的 NVIDIA Omniverse ACE 平台
挑战和解决方案
开发用于数字人的 TTS 可能有一定的难度,尤其是在创造自然、真实的语音方面,并且难度取决于地区和语言。这是因为使用传统和统计算法创建的 TTS 系统可能导致语音听起来像是机器人或机械发出的,而用户对此可能不会“买账”。
此外,由于 TTS 系统受数据集、所使用的模型和模块类型等诸多因素影响,因此要为数字人应用创建灵活的自适应语音具有一定的难度。这使开发者难以生成具有细微差别和富有表现力的语音。
最后,数字人需要在不牺牲质量的情况下实时生成大量语音,因此创建高效、可扩展的 TTS 系统至关重要。
NVIDIA 为数字人和虚拟形象生成了自定义语音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可帮助开发只需短短几毫秒就能实时运行且精准的 TTS 流程,满足实现自然语音的必要条件,还可以灵活调整音调、持续时间和音量等,使生成的声音更具表现力。
开始使用语音合成
用户现在就可以开始将 TTS 功能集成到应用中,例如阅读内容或生成数字网红独特声音等。NVIDIA Riva 等 SDK 可以帮助用户开发出提供高准确度并进行高性能推理的应用。
标签: