科大讯飞新突破，“谛听”可识别30分贝音量

科技周刊网科技人工智能正文

科大讯飞新突破，“谛听”可识别30分贝音量

2020-09-22 09:27 来源：互联网

物联网，作为人类最自然、最方便的通讯方式，声音正成为所有智能设备的重要入口，但声音进入的关键往往并不令人满意。就智能家居而言，它们的选音范围大多集中在2~3米的近场环境中，拾取效果不佳，需要多次唤醒。

如果把相机比作"眼睛"，那么拾音器就是"耳朵"。眼睛看到的图像和耳朵听到的声音结合在一起，形成了一个基本的音频和视频记录系统。然而，这种灵活的耳朵会受到许多因素的影响，如拾取距离、室内混响、环境噪声等，而这对拾取声音是一个很大的挑战。

据了解，iFLYTEK系列配有32部麦克风、主要的自动声源定位、自适应波束形成和混响抑制技术，以及基于深度学习的噪声抑制和语音自动增益调整算法，可以实现说话人的自动定位、噪声和混响抑制、音量自动调整等功能，从而达到准确拾取声音的目的。

自动跟踪声源，准确拾取30分贝的超低音量

最近，一位科技博主对皮卡的评价引起了人们的注意。在视频中，iFLYTEK听了一系列产品，以及来自美国森·赫塞尔(Sen Hessel)和舒尔(Schur)的类似产品，"在同一舞台上竞争。"iFLYTEK表现不错。

在模拟30分贝耳朵听不到超小音量的环境下，森·赫塞尔拾起稳定、清晰的内容，舒尔拾起的声音很小，很难分辨语音的内容，iFLYTEK听的内容清晰，音质较好。

这主要是由于使用了iFLYTEK公司开发的全自动声源定位技术。只要有轻微的声音，它就能像聚光灯一样快速地定位声源，并能抑制其他方向的混响和噪音。在实际应用中，32台麦克风阵列每天能接收7×24小时的声音，全向、无死角，并能准确地捕捉低至30分贝的超低音量。

克服技术上的困难，倾听降噪的能力是惊人的

声学环境比预期更复杂，环境噪声、干扰噪声、电流噪声和其他噪声在时间和频谱上经常重叠，再加上回声和混响的影响，很难捕捉到相对纯的语音。在视频中，评估人员分别模拟了70分贝和90分贝的环境噪声。结果表明，即使是90分贝的极端噪声环境也抑制了噪声，谈话内容仍然清晰。

面对噪声的挑战，iFLYTEK在时域、频域和空域聆听信息可以有效地增强语音，显著抑制噪声对目标语音的影响。首先，它通过声音定位技术对语音进行拾取，进行语音增强，实现了初步的降噪效果；然后进行了基于波束形成和深度学习的语音增强算法，并根据人耳的听觉特性自动增加和优化了音量，使声音更加充分。

核心语音技术推动发展，为未来创造多个场景

万事联姻的时代已经到来，充满活力的IOT将激发无限的可能性，前端接收到的声音质量无疑会影响后期的语音处理水平。

聆听系列产品是iFLYTEK公司21年来坚持核心技术自主创新的体现。自2018年以来，iFLYTEK已经赢得了30项国际人工智能比赛，涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等多个领域。随着技术技能的突破，iFLYTEK也为皮卡的多种应用场景的着陆提供了强有力的技术支持。过去，采音设备成本高，音质差，方向性强，不能大面积推广，引入听力，可能会打破这一现象。

据报道，听力系列产品在未来可以广泛应用于安全、交通、高质量会议等关键场所和关键部位，其实际应用可以说有很大的潜力。以公共场所为例，以往的大部分视频都不能准确地拾取声音，音视频的有效结合，全方位的音像采集解决了简单视频图像的死角，有利于防止群体性侵权事件的发生，满足更现实的需要。

责任编辑：fafa