739
浏览基于声纹去识别的安全通信方案
摘要:互联网时代使用深度学习技术保护个人隐私成为一种新的可行方案。在公共网络社交中,用户的声音特征、面貌特征保护主要依赖于通信软件的加密算法,在终端和链路中缺乏针对特定隐私的保护。论文针对现有语音识别、语音合成、声纹识别、信号处理等语音技术,提出一套基于语音技术保护用户身份隐私的安全通信方案。论文提出的方案分为本地端处理和服务端部署两个部分。在本地端综合信号处理和模型处理两种方法,对语音数据做声纹去识别处理:信号处理方法以噪声添加的方式模糊语音数据内容,在保留人耳听觉感知的基础上,运用麦克亚当斯系数抑制语音数据中的声纹特征;模型处理方法基于深度语音学习模型,利用语音识别和语音合成两种技术,以文字为中介媒体,完成语音数据中声纹特征的去除。在服务端采用SFU方案构建通信服务,经由WEB界面实现与用户的交互及可视化通信。主要研究的内容和具体贡献如下:(1)提出一个基于身份信息保护的安全通信方案,帮助用户在通信中获得针对身份隐私的额外保护,减少终端泄露个人声纹特征的可能性;(2)提出一种安全性检测方法,基于有限的可理解性和声纹的匿名性,结合语音识别的词错率、声纹识别的余弦距离、通信网络的时延以及人耳听觉的感知等指标参数,对方案实施多角度检测;(3)实现一种多模式的安全通信应用,根据用户不同的安全需求可使用默认模式、快速模式、强安全模式三种不同的身份隐私安全保护。
关键词:匿名通信;安全性检测;
文章目录
摘要
abstract
第1章 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 本文的工作与贡献
1.4 本文的结构
第2章 背景知识和相关工作
2.1 语音的基本处理
2.2 自动语音识别
2.3 快速语音合成
2.4 自动声纹识别
2.5 麦克亚当斯系数
2.6 匿名化标准
2.7 语料库
2.8 本章小结
第3章 本地端匿名化处理
3.1 前期准备
3.2 基于模型处理的匿名化方案
3.3 基于信号处理的匿名化方案
3.4 基于模型处理的自动声纹识别检测
3.5 本章小结
第4章 服务端通信功能
4.1 Mediasoup概述
4.2 云服务器部署
4.3 本地音频推流
4.4 本章小结
第5章 匿名通信系统
5.1 系统设计
5.2 编程实现
5.3 应用实现效果展示
5.4 系统性能及安全性
5.5 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
[1]Voxceleb: Large-scale speaker verification in the wild [J] . Arsha Nagrani,Joon Son Chung,Weidi Xie,Andrew Zisserman. Computer Speech & Language . 2020 (C)
[2]Preserving privacy in speaker and speech characterisation [J] . Andreas Nautsch,Abelino Jiménez,Amos Treiber,Jascha Kolberg,Catherine Jasserand,Els Kindt,Héctor Delgado,Massimiliano Todisco,Mohamed Amine Hmani,Aymen Mtibaa,Mohammed Ahmed Abdelraheem,Alberto Abad,Francisco Teixeira,Driss Matrouf,Marta Gomez-Barrero,Dijana Petrovska-Delacrétaz,Gérard Chollet,Nicholas Evans,Thomas Schneider,Jean-Fran?ois Bonastre,Bhiksha Raj,Isabel Trancoso,Christoph Busch. Computer Speech & Language . 2019 (C)
[3]Neural Speech Synthesis with Transformer Network [J] . Naihan Li,Shujie Liu,Yanqing Liu,Sheng Zhao,Ming Liu. Proceedings of the AAAI Conference on Artificial Intelligence . 2019
[4]FastSpeech: Fast, Robust and Controllable Text to Speech. [J] . Yi Ren,Yangjun Ruan,Xu Tan,Tao Qin,Sheng Zhao,Zhou Zhao,Tie-Yan Liu. CoRR . 2019
[5]Speaker Anonymization Using X-vector and Neural Waveform Models. [J] . Fuming Fang,Xin Wang 0037,Junichi Yamagishi,Isao Echizen,Massimiliano Todisco,Nicholas W. D. Evans,Jean-Fran?ois Bonastre. CoRR . 2019
[6]A Neural Algorithm of Artistic Style. [J] . Leon A. Gatys,Alexander S. Ecker,Matthias Bethge. CoRR . 2015
[7]THCHS-30 : A Free Chinese Speech Corpus. [J] . Dong Wang,Xuewei Zhang. CoRR . 2015
[8]Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. [J] . George E. Dahl,Dong Yu,Li Deng,Alex Acero. IEEE Trans. Audio, Speech & Language Processing . 2012 (1)
[9]Sequence Transduction with Recurrent Neural Networks [J] . Alex Graves. CoRR . 2012
[10]Front-End Factor Analysis for Speaker Verification [J] . Najim Dehak,Patrick J. Kenny,Réda Dehak,Pierre Dumouchel,Pierre Ouellet. IEEE/ACM Transactions on Audio Speech and Language Processing . 2011 (4)