语音识别的基本问题与基本概念解析


1. 语音识别的三个基本问题

语音识别:将语音转写为文字,涉及到三个基本问题。

  1. 前后上下文具有相关性
  2. 语音和文本的长度关系可变(参考《语音识别基本法》 Version 20190126 第2.2.1小节)
  3. 基本建模单元的粒度大小(参考《语音识别基本法》 Version 20190126 第2.2.1小节)

2. 基本概念

我们通常所说的语音识别一般指大语汇量连续语音识别,即large vocabulary continuous speech recognition (LVCSR)。

语音

隐马尔可夫模型

解码

说话人自适应(Speaker Adapted Training, SAT)

盲源分离算法

独立成分分析(Independent Component Analysis)是解决盲信号分离的典型方法。(Ref. 崔浩的硕士论文第三章)

3. 现有疑惑

  1. Lexicon也许不是那么简单的事情?(Ref. Prabhavalkar, Interspeech 2018 presentation)
  2. LDA用来降维?(A keyword search system using open source software)

答:是的,先将帧特征拼接,然后用LDA降维。参考《维吾尔语三音素决策树的欠拟合调优》