【一线:360行】语音合成架构师:“看到”你的声音

2021-10-09 12:02:03

来源:互联网

两年前的经历让孙涛至今难以忘怀。“有一位抗美援朝的老战士,很怀念已经过世的老排长。” 语音合成架构师孙涛就和同事录制了一些老排长在世时的声音,并通过语音合成技术把老排长留给老战士的信读给他听,老人顿时泪流满面。

语音合成广泛应用于播报、客服、导航、虚拟主播、虚拟主持人等等。语音合成有三大关键因素:文本内容、发音人音色和说话的韵律节奏。发音人音色的不同在于喉咙。每个人的喉咙结构比较固定,如果把它比喻成一个乐器,文本内容和韵律节奏更像是乐谱。语音合成相当于只要掌握了乐器(喉咙)的基本结构,想要合成什么样的语句,只要提供乐谱(文本内容和韵律节奏)就可以了。

“只要收集你说的9句话,就能复刻你的声音”。语音合成架构师孙涛自信地对中工网记者说。每天,孙涛要处理大量采集来的声音。看着高低不平的声波,就像看着即将亮相的乐谱,人工智能是“演奏家”,而他,就是那个“作曲家”。

语音合成需要很多环节,比如声音的质量、录制时的环境、数据规整等等,最关键的还是如何让机器通过学习获得声音与文本的匹配关系,这是语音架构师花费时间最多的地方。并且,语音跟图像、文本不一样,它具有时序性和交互性特点,要求系统具有快速响应用户的能力,这样,如何更好地完成时序模型系统的设计是考验一名语音架构师是否合格的因素之一。

“以前客户服务电话的拒接率很高,大家一听就知道这不是真人,从情感上就不想交流。” 人工智能的快速发展,语音合成也搭上了这趟顺风车。“语音合成的效果提升以后,已经无法分辨接客服电话的是真人还是机器,与客户沟通的效率也提升了。”孙涛对中工网记者说,语音合成发展到现在已经进步为个性化的合成,会带上情感表现,甚至还有一些人文关怀的成分。“语音合成发展的大方向是交互,让人与人工智能自如地对话。不仅能传递信息,也能传递情感。”孙涛满怀憧憬地说。

关键词: 一线 360行 语音 合成