加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 综合聚焦 > 移动互联 > 数码 > 正文

聆听天籁的幕后,为你解读天籁AI语音辅听 增强算法

发布时间:2022-03-05 01:32:00 所属栏目:数码 来源:互联网
导读:中国联通联合腾讯会议旗下天籁实验室发布畅听王卡升级版,在语音通话和实时字幕双场景下,让听障用户不仅听得清,同时也能看得清。 在这背后,依托于天籁实验室专为听障人群打造的天籁AI语音辅听/增强算法,创造性地采用了用增强语音的方式来做语音增强,
       中国联通联合腾讯会议旗下天籁实验室发布“畅听王卡升级版”,在语音通话和实时字幕双场景下,让听障用户不仅“听得清”,同时也能“看得清”。
 
       在这背后,依托于天籁实验室专为听障人群打造的天籁AI语音辅听/增强算法,创造性地采用了“用增强语音的方式来做语音增强”,从腾讯会议实践出发,一路向善,不断地将技术价值向外延伸。
  
       听得清=零噪声?
 
     你可能也曾遇到过这样的场景:
 
     在一个嘈杂的餐厅中,同桌的两人在专注地交谈,尽管周围噪声很大,但两人耳中只听到对方的说话声,似乎完全听不到谈话内容以外的各种噪音。
 
     这是声学领域里常见的“鸡尾酒效应”。
 
     事实上,不同频率声音的言语能量和可懂度有所不同,那怎么样的声音才能被“听得清”,继而能被“听得懂”呢?
 
不妨来听听这样一组声音。
 
语音A(原始带噪语音)
 
在波形上,能直观感受到有很强的风噪干扰。
 
在听感上,由于噪声干扰,语音可懂度非常低。
 
语音B(简单降噪逻辑处理后语音)
 
将语音A进行降噪处理后,波形变得非常干净。然而,声音的可懂度并没有提高。
  
简单的降噪逻辑虽然能够对噪声进行抑制,但这种做法破坏了语音结构,导致声音忽高忽低,语音的可懂度却没有获得提升。因此,语音增强和降噪,并不能划等号。
 
而对于听障人群来说,这个问题尤为关键。
 
相对来说,听障用户可感知的语音成分非常少,只能通过有限频段的感知,来获得语音的感知。若只采用简单的“降噪”思维来处理,往往会造成一种“噪声处理地太干净,但我反而听不清你在说什么”的窘境。
  
这仿佛是个鱼与熊掌不可兼得的问题。但回归人类听觉本质,问题似乎就能迎刃而解。
 
尽管人们对声音信号的感知和处理过程仍待探索,但有一件事情是清楚的:越能从接收的信号中准确提取语音成份,可懂度就越好。“于是我们想到了从“语音”,而非“噪声”的角度来切入处理。”天籁实验室研究人员说。
 
针对于听障用户的体验痛点,天籁实验室的研究人员创造性提出了用“增强语音”的方式来做“语音增强”的思路,并研发出天籁AI语音辅听/增强算法——cSENN (一种基于语音上下文关系深度学习的语音增强方法)。
 
通过天籁自主研发的AI算法识别出带噪语音里面的语音的成分,先用一种合理的方式将其保护起来,再对声学的噪声进行有效的抑制。
 
这个做法,在对背景干扰声做了有效的抑制的同时,也能保持较高的语音可懂度,让用户听得更清。
 
不妨来听听语音A经过天籁算法增强后的效果。
 
语音C(天籁技术增强后语音)
 
从波形上看,似乎跟简单“降噪”处理的效果差不多,但是明显地,增强后的语音保留得更好、输出语音平稳,同时把噪声抑制到理想水平。
 
 
这项技术,也在腾讯天籁行动,被应用于中国联通畅听王卡中。
 
在“畅听王卡升级版”中,在天籁AI语音辅听/增强算法的加持下,用户将在语音沟通、实时字幕双场景下均获得更好的体验,实现典型噪音场景下单一字节言语识别率提升66%,和实时字幕别准确率提高5.5-9.9个百分点。
 
以下是一段实录视频:在上行发送端非常嘈杂的情况下,下行接收端的通话质量和字幕效果均表现优异。
 
注:下行端采取手机外放方式录屏,音频质量有影响
 
源自腾讯会议,一路向善
 
听得清、听得真,是腾讯会议致力于给用户提供的音频体验。
 
作为腾讯会议旗下的顶尖音频实时通信和处理研发团队,天籁实验室从腾讯会议的大量实践场景出发,此前基于上千小时的语音噪声数据,通过深度学习和AI算法,已经成功消除300多种环境噪声,并已成功应用在腾讯会议上。
 
此前,腾讯会议推出的个性化语音增强功能,也是天籁实验室在“用增强语音的方式来做语音增强”思路下的一个成功实践,能够在环境噪声消除的基础上,进一步消除周围人声的干扰,凸显主讲人的声音信号,仿佛一个“会找主人的麦克风”,打造更加干净、纯粹的沟通体验。
 
该技术的准确率在微软组织的ICASSP 2022 DNS个性化语音增强比赛评测中排名第一,MOS分相对微软提供的基准线高出0.57,相对处理前的语音MOS分高出1.41。
 
“腾讯天籁行动”正是天籁AI技术在听障领域应用的“技术价值外溢”, 为两亿腾讯会议用户提供会议降噪,在亿级产品上进行了成熟验证后,保障良好的视频会议体验的同时,践行腾讯科技向善理念,在技术公益领域探索,将技术用于人工耳蜗降噪、AI辅听和字幕识别优化等场景,解决社会问题,将社会责任真正融入产品及服务之中。
 
未来,天籁实验室也将持续保持开放,也期望有更多的伙伴加入我们,共同为广大用户打造更加纯净、高质的音频体验。

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读