题名面向鸡尾酒会问题的视觉辅助语音分离算法研究
作者张鹏
答辩日期2021-05-27
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师徐波
关键词鸡尾酒会问题 语音分离 视觉辅助 在线流式处理 生成对抗训练
学位名称工学硕士
学位专业模式识别与智能系统
英文摘要

语音作为人类社会最自然、最有效、最便捷的信息交互方式之一,在人们的日常生活中起着关键作用。目前,在简单的声学场景中,语音识别 (例如,近场语音识别) 和说话人识别都已获得十分优异的性能。然而,在实际生活中,我们时时刻刻处在复杂的声学场景中,环境噪音、人声干扰以及混响都会不同程度地干扰语音的质量,从而影响后续语音处理技术。近些年,作为“鸡尾酒会问题”的典型任务,多说话人语音分离技术被广泛研究,旨在将目标语音从背景干扰音中分离出来从而提升目标语音的质量。虽然纯音频语音分离算法在标准数据集上获得了优异的性能,但是它存在的两个问题 (标签排列问题和声源数目不确定问题) 使其难以在真实复杂的声学场景中应用。受人类听觉系统的启发,以及得益于深度神经网络的强大建模能力,基于视觉辅助的语音分离算法开始蓬勃发展起来,并具备在真实复杂声学场景中应用的潜力,但是此类算法仍然存在“语音分离性能不佳、不满足在线处理、部分视觉信息丢失导致性能急剧下降”等问题。针对于此,本文重点关注视觉辅助语音分离算法中的视觉特征提取方法、在线模型的设计方法、鲁棒模型的训练策略以及如何将先进建模和训练方法应用在该算法中,尝试解决该算法中存在的一些实际问题,并有效提升算法性能。本文的主要贡献包括:

1. 本文提出了一种基于动态视觉特征的语音分离模型 AVMS (Audio-Visual speech separation Model using Speech-related visual features)。本文首先对语音分离任务下现有的动态视觉特征提取方法做了分析,发现最有效的动态视觉特征应该与语音具有很强的相关性。本文提出采用学习联合的视听觉表示 (learning joint audio-visual representation) 和领域对抗训练 (domain adversarial training) 的方法来提取该视觉特征,并基于时域编码方法和时序卷积神经网络构建模型。本文在 4 个音视频基准数据集上进行了细致的实验,实验结果表明,AVMS 优于目前最先进的基于视觉辅助的语音分离模型。另外,模型在真实复杂的声学场景中可以取得令人惊艳的语音分离效果,使目标语音的纯净度显著提高,这表明模型具有很强的应用价值。为了缓解部分视觉信息 (视频帧) 丢失时语音分离性能急剧下降的问题,本文提出了随机丢失视频帧的训练策略。该训练策略可以显著增强模型的鲁棒性,使模型在视觉信息随机丢失和视觉信息连续丢失场景下均可以维持较为优异的性能;

2. 本文提出了一种新颖的基于静态视觉特征的语音分离模型。本文分析了现有的基于静态视觉特征的语音分离模型性能差的原因,并提出了相应的优化策略。具体地,导致模型性能差的原因有两个:(1) 现有模型均采用时频域编码方法,该方法存在语音相位难以估计的问题;(2) 人脸图像受多种因素 (例如,光照和位姿等) 的影响产生多样性,并且训练数据有限,无法覆盖完整的样本空间,所以导致模型的泛化能力变差。针对第一个原因,本文采用时域编码方法,并使用门控双通路循环神经网络 (gate dual path recurrent neural networks, GDPRNN) 来构建模型,这不仅可以有效避免相位估计问题,还增强了模型处理时序数据的能力,从而提升模型性能。针对第二个原因,本文提出利用对抗训练 (adversarial training) 方法在视觉特征层面来隐式建模人脸图像的多样性,从而提升模型的泛化能力。实验结果表明,上述策略可以显著提升模型的性能,与基线模型相比,本文提出的模型信号失真比 (signal-to-distortion ratio, SDR) 的提升为 106%;

3. 本文提出了一种基于生成对抗训练的在线视觉辅助语音分离模型,目的是拓展模型在视频通话和人机交互等在线场景中的应用。具体地,本文采用因果时序卷积神经网络构建模型,使其在理论上满足实时处理的要求;另外,本文提出了在线流式推理策略,该策略可以使模型在 GPU、CPU 和手机芯片上部署并满足在线语音分离的要求,并且不会造成任何性能损失。为了缓解尺度不变信噪比 (scale-invariant signal-to-noise ratio, SI-SNR) 损失函数造成的负面影响,即分离语音缺乏真实语音的精细结构,本文采用生成对抗训练方法来优化整个模型,通过生成器 (在线视觉辅助语音分离模型) 和鉴别器之间的博弈对抗来使分离语音在高维空间中趋近于真实语音。实验结果表明,该方法在不增加任何模型参数的情况下,可以同时提升分离语音的听感和语音识别性能。本文首次探索了面向端侧部署的在线视觉辅助语音分离模型的设计方法,为实现该模型在在线场景中的应用迈出了重要一步。

演示视频及模型处理前后的视频和音频样例见我们的主页:https://demo2show.github.io/Samples/。

语种中文
学科主题人工智能
页码108
DOI标识0
URL标识查看原文
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44895]  
专题数字内容技术与服务研究中心_听觉模型与认知计算
推荐引用方式
GB/T 7714
张鹏. 面向鸡尾酒会问题的视觉辅助语音分离算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace