虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:首页 > 技术阅读 >  全高清语音已近在咫尺

全高清语音已近在咫尺

时间:2024-02-05



高清语音是自真空管时代以来话音质量的首次重大飞跃,如今在这一技术终于得到普及之时,也恰逢新一代电话服务——全高清语音面世。

在今年年初的巴塞罗那世界移动通信大会上,弗劳恩霍夫集成电路研究所宣布了一款结合强大标准算法的系统,能够实时将完整的音频编解码成20千赫的立体声。最早到明年,许多设备就能支持全高清语音切换了,这将标志着语音与移动数据流完全融合,是业界多年来一直致力实现的目标。

全高清语音将话音转换成能够与数据流共同在互联网中传输的数据包,集成的算法能够恢复数据包在传输中的损失,将今天的网络电话(VoIP)转换成碎片化、非智能的散列。这一技术采用的算法能够编码音乐和其他非语音音频,这些声音通常由优化后的代码进行处理,以便将众多语音电话压缩到一小段频谱中。由于全高清语音覆盖了完整音频频谱,所以电话中的声音听上去像所有人都在一个房间里一样;你甚至能听到轻微的背景音,如敲击键盘的微弱声响。如此强大的编码解码软件可以作为一款智能手机应用来使用。

弗劳恩霍夫集成电路研究所美国加州圣何塞分所主管H•P•鲍迈斯特H.P. Baumeister说,“我们希望将电话技术带入21世纪”,实现类似于高清电视给视频带来的那种影响。

语音电话在21世纪无疑仍然占有一席之地。现代固定电话的频率范围为3003400赫兹,这一标准是依据贝尔实验室在20世纪20年代对易懂语言要求进行的研究制定的。虽然这一频率范围剔除了区分fs等辅音所需的高频,但能适应当时模拟铜质电话线有限的带宽。

1988年,国际电信联盟批准了高清语音的G.722标准,允许数字电话线承载507000赫兹的频段。但是,这需要升级固定电话网络才能实现,所以该标准的实际应用非常有限。前三代手机依然保留了3400赫兹的窄带固话音频,但是为了在有限的移动频谱中加入更多通话,话音在压缩后质量变得更差。(见本刊2014年第10期文章《智能当道,通话受损》。)

互联网更高的带宽使Skype及其他VoIP服务可以使用7000赫兹高清语音,但是VoIP呼入电话网络时被限制到3400赫兹。大多数4G智能手机都具备解码和编码7000赫兹高清语音算法的电路,但是只有两部手机以及它们之间的链路都能处理高清信号时,才能在7000赫兹进行连接。在实际情况中,这意味着只有同一运营商网络的4G手机之间才能使用7000赫兹高清语音。

全高清语音将能够消除网络或设备之间的语音鸿沟。全高清语音的核心技术被称为增强语音服务(EVS)编解码技术。与10年前陈旧的高清语音系统相比,该技术的语音压缩算法更加复杂和强大,能够将整个可听范围内的立体声数据速率压缩至最低每秒9.6千比特。该编解码技术还包括压缩音乐的算法。

由于语音与音乐的压缩方式不同,因此将两种算法分开是非常必要的。语音压缩通常采用名为码本激励线性预测(CELP)的算法,这种算法是在人类声音系统的基本物理学基础上建立的。CELP能够将声音信号的数据速率降低至原来的十分之一左右。“这种编码方式在语音方面非常出色,但在其他方面却很平庸。”卡耐基梅隆大学(位于匹兹堡)的电子与计算机工程专家理查德斯特恩(Richard Stern)说。

音频流使用的MP3AAC解编码等音乐压缩算法针对人类的听觉进行了优化。例如,这些算法不会准确再现声音中容易被其他频率或其他时间的高音掩盖的和缓部分。斯特恩说,这种方法能够表现更宽的声音范围,但是需要比语音编解码更高的比特率。

新的EVS编解码是混合模式,包含了语音与音乐算法,可以根据需要切换。新的语音解码算法在复杂程度上远高于10年前的7000赫兹解编码技术。早前的解编码技术围绕几种特定语言的特点进行开发,而新的技术基本上与语言无关。音乐编解码部分是AAC算法的最新低延迟版本,针对实时流通信进行开发。通过传输一个立体声频道以及低数据速率信号,这种名为AAC-ELDv2的技术仅以32千比特每秒的码率便能提供CD水准的立体声,低数据速率信号代表传输的立体声频道与其他立体声频道的区别。

鲍迈斯特说,EVS这种综合解决方案的一项重要特征在于,它是第一款专为补偿数据包损失而设计的编解码器。这种损失会降低声音质量,在4G LTEIP网络中难以避免。

为了验证这种编解码的性能与抗衰减能力,弗劳恩霍夫集成电路研究所与11家合作伙伴(包括爱立信、华为、高通与三星)花费数百万欧元进行了人类听觉测试。测试结果显示,即使在9.6千比特每秒的数据速率下,EVS依然可以达到全高清语音标准。

现代智能手机芯片的处理能力是新型编解码技术的关键要素。这种编解码技术在数字信号处理芯片中的应用方式可以与4G智能手机的7000赫兹解编码相同,也可以通过智能手机处理器运行应用程序的方式进行。“与智能手机上的应用相比,EVS编解码并不复杂。”鲍迈斯特说。

由于具备抗衰减能力,所以全高清语音技术可以直接将压缩数据导入互联网数据流,并路由至其他设备,如电脑或智能手机之间的Skype通话。在世界移动通信大会上,弗劳恩霍夫集成电路研究所采用谷歌Nexus 5手机上安装的应用进行了演示。由于无须网络升级,鲍迈斯特说,“今年先提供概念服务,明年就可以实际推广了。”

读者可访问http://www.full-hd-voice收听语音样本,请在安静的环境下使用质量较高的耳机试听。斯特恩将这种变化比作标清与高清电视之间的差别。“差别不会太明显,不会出现听觉上的巨大改变,但是音效听起来会更好、更自然,如同高质量的扬声系统。”他说。

作者:Jeff Hecht