语音识别的基本问题与基本概念解析
on 研究方向
1. 语音识别的三个基本问题
语音识别:将语音转写为文字,涉及到三个基本问题。
- 前后上下文具有相关性
- 语音和文本的长度关系可变(参考《语音识别基本法》 Version 20190126 第2.2.1小节)
- 基本建模单元的粒度大小(参考《语音识别基本法》 Version 20190126 第2.2.1小节)
2. 基本概念
我们通常所说的语音识别一般指大语汇量连续语音识别,即large vocabulary continuous speech recognition (LVCSR)。
语音
- mel-cepstral distortion
- mel-scale log filter banks
- *梅尔倒谱系数mel-frequency cepstral coefficients (MFCC): a good descriptor for ASR
- *感知线性预测特征PLP
- 线性判别分析技术(Linear Discriminant Analysis, LDA) Ref. 张俊博的博士论文第三章
- MOS score: mean opinion score
- infinite impulse response (IIR) filter vs. finite impulse response (FIR) filter
- MMI based sequence training
- Back-propagation through time (BPTT)
- n-gram language model
- Lombard Effect of noisy speeches
- Accents database: http://www.voxforge.org
隐马尔可夫模型
- 隐马尔可夫模型是一个带概率的有限状态隐马尔可夫链,也可认为是一个离散时域有限状态自动机(FSA)。(Ref. 张俊博的博士论文第21页)
- 隐马尔可夫模型的评价、解码和训练算法分别是前向算法,维特比算法和Baum-Welch算法。(Ref. 张俊博thesis)
- 维特比算法是一种动态规划算法。(Ref. 张俊博thesis)
- 一文搞懂隐马尔可夫模型: https://www.cnblogs.com/skyme/p/4651331.html
- 隐马尔可夫模型的基本假设:时间独立性假设和分段平稳假设,这与语音的动态特性之间并不匹配(Ref. 《维吾尔语三音素决策树的欠拟合调优》)
解码
- 维特比算法
- 对于小词汇量的语音识别系统,在解码时只要将字典的词条展开词环就可以进行解码;
- LVCSR:基于树形结构的解码方法以及带权有限状态机的解码方法。(Ref. 徐海华thesis)
- 大词汇量连续语音识别中,ROVER是最早被提出的多系统联合解码方法
- 对齐的问题?
说话人自适应(Speaker Adapted Training, SAT)
盲源分离算法
独立成分分析(Independent Component Analysis)是解决盲信号分离的典型方法。(Ref. 崔浩的硕士论文第三章)
3. 现有疑惑
- Lexicon也许不是那么简单的事情?(Ref. Prabhavalkar, Interspeech 2018 presentation)
- LDA用来降维?(A keyword search system using open source software)
答:是的,先将帧特征拼接,然后用LDA降维。参考《维吾尔语三音素决策树的欠拟合调优》