【读书笔记】《语音信号处理(C++版)》


目录

  1. 绪论
  2. 基础知识
  3. 分析方法
  4. 特征提取技术
  5. 语音增强
  6. 说话人识别
  7. 语音识别

1. 绪论

语音信号处理的研究方向

2. 语音信号处理的基础知识

语音产生的数学模型

语音的常用参数

语音信号的表征

3. 语音信号分析方法

语音信号预处理

语音信号的时域分析

语音信号的频域分析

语音信号的倒谱分析

语音信号的线性预测分析

4. 语音信号特征提取技术

本章主要介绍三种主要的语音信号特征:语音端点、基音周期和共振峰。

端点检测(voice activity detection)

设语音信号时域波形为$x(i)$,加窗分帧后第$n$帧语音信号为$x_n(m)$,其FFT为$X_n(k)$。则对于某一谱线$k$的能量谱为$Y_n(k)=X_n(k)X_n^*(k)$。该语音帧的短时能量$$ E_n=\sum_{k=0}^{N/2}Y_n(k) $$ 其中,N为FFT的长度,只取正频率部分。每个频率分量的归一化谱概率密度函数$$ p_n(k)=\frac{Y_n(k)}{E_n} $$ 该语音帧的短时谱熵定义为 $$ H_n=-\sum_{n=0}^{N/2}{p_n(k)\lg p_n(k)} $$

基音周期估计

共振峰估计

5. 语音增强

基础知识

谱减法

维纳滤波法

自适应滤波法

基于听觉掩蔽效应的语音增强方法

6. 说话人识别

识别原理和系统结构

应用VQ的说话人识别系统

应用GMM的说话人识别系统

在辨认任务中,目的是找到一个说话者$i$,其对应的模型参数$\theta_i$使得待识别语音特征矢量组$\boldsymbol{X}$具有最大后验概率$P(\theta_i/\boldsymbol{X})$。 根据贝叶斯理论,最大后验概率可表示为 $$ P(\theta_i/\boldsymbol{X})=\frac{P(\boldsymbol{X}/\theta_i)P(\theta_i)}{P(\boldsymbol{X})} $$ 假定该语音信号出自封闭集里的每个人的可能性相等,也就是说 $$ P(\theta_i)=1/N, i\in[1,N] $$ 对于一个确定的观察值矢量$\boldsymbol{X}$$P(\boldsymbol{X})$是一个确定的常数值。这样问题转化为 $$ i = \arg \max_i P(\boldsymbol{X}/\theta_i) $$

7. 语音识别

识别原理与系统构成

HMM算法

性能评测