博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MFCC/Filter Bank的提取流程
阅读量:5116 次
发布时间:2019-06-13

本文共 740 字,大约阅读时间需要 2 分钟。

   

  1. 预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
  2. 分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧移为16ms
  3. 加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响。
    1. 汉明窗,海明窗,是一个窗函数,这个函数在某一区间有非零值,而在其余区间皆为0。这是为了方便做快速傅里叶变换
  4. 快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱频域信号
  5. 梅尔滤波器组: 用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应 一般取40个三角滤波器,取对数后即40fbank
  6. 求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
  7. 离散余弦变换(Discrete Cosine Transformation, DCT,可选):去除各维信号之间的相关性去相关,将信号映射到低维空间(从40维降到13维) 若去除这一步,得到的则是Filter Bank特征,因为dnn模型可以学习特征间的相关性因此不需要去相关性的操作。
  8. 得到MFCCFilter Bank
  9. Delta差分:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数(
    Delta-Delta)和二阶差分参数(
    Delta-Delta+Delta)。

       

   

转载于:https://www.cnblogs.com/JarvanWang/p/7499576.html

你可能感兴趣的文章
rsync
查看>>
noip模拟赛 党
查看>>
bzoj2038 [2009国家集训队]小Z的袜子(hose)
查看>>
Java反射机制及其Class类浅析
查看>>
Postman-----如何导入和导出
查看>>
移动设备显示尺寸大全 CSS3媒体查询
查看>>
图片等比例缩放及图片上下剧中
查看>>
【转载】Linux screen 命令详解
查看>>
background-clip,background-origin
查看>>
Android 高级UI设计笔记12:ImageSwitcher图片切换器
查看>>
Blog文章待看
查看>>
【Linux】ping命令详解
查看>>
对团队成员公开感谢博客
查看>>
java学习第三天
查看>>
python目录
查看>>
django+uwsgi+nginx+sqlite3部署+screen
查看>>
Andriod小型管理系统(Activity,SQLite库操作,ListView操作)(源代码下载)
查看>>
在Server上得到数据组装成HTML后导出到Excel。两种方法。
查看>>
浅谈项目需求变更管理
查看>>
经典算法系列一-快速排序
查看>>