HMM(隐马尔科夫模型)的训练 - HelloWorld开发者社区

HMM的训练

隐马尔科夫模型的训练。上篇文章讲述了，已知模型(初始矩阵，状态转移矩阵，发射矩阵）求某一观察序列的几率。但没有提及如何获取模型参数，这篇文章就概略的讲述HMM的训练。

极大似然估计(Maximum Likelihood Estimate)

在很多网上文章里，提到如果有标注数据可以通过极大似然估计对HMM的参数进行计算。
极大似然估计其实就是在已经概率分布形式的情况下，对参数进行估算的一种方法。

写出似然函数

加入对数（方便求导，不会影响结果）

设导数为0

求解方程（如果有多个参数，会联立求方程组）

通过隐马尔可夫模型中最大似然估计的推导过程
[https://wenku.baidu.com/view/...]()

可以推出

状态转换概率：
$$P(t | s) = \frac{Count(t,s)}{Count(s)}$$
发射概率:
$$P(w | t) = \frac{Count(w,t)}{Count(t)}$$

里边的Count(t,s) 就是隐藏状态t,s在训练集中得出现次数。Count(w,t)是隐藏状态t和观察状态w一起出现的次数。
其实这个也很符合常识，不用上边复杂的推导过程，根据经验（大数定律), 我们也能知道频率近似于概率。

Baum–Welch算法

很多时候我们并没有标注数据，只有很多组观察数据(未标注), 在进行极大似然估计计算的时候，根本无法进行（维数等于样本数据）。
但我们能比较两组不同的参数，判断谁得到样本集的概率更高。EM(Expectation-maximization)算法能帮助我们在这种情况下，得到概率分布参数的局部最优解。从某种意义上来说，EM算法可以看做求极大似然的一种特殊算法。

回到HMM上，Baum–Welch算法就是EM算法在HMM上的具体实现。
顺便说下，Baum–Welch算法(1960s)比EM算法(1977)早出现, 但EM总结这类算法的一般步骤。所以现在都把Baum–Welch看成EM的特殊实现。

Baum–Welch算法的步骤。

随机构造初始化参数。

E-step,通过前向后向计算，得到参数的数据期望

M-step,通过E(X)更新参数。

迭代2-3步。直到参数稳定，得到局部最优解。

算法先假定一组概率参数，然后利用向前向后计算，计算出符合目前观察现象的概率的数学期望，
然后再拿这组数学期望去更新参数，逐渐逼近局部最优解。

现在让我们看看E-STEP到底怎么做的，在此前我们得先弄明白向前变量和向后变量。

向前变量
$$\alpha_{t}(i)=P(O_{1},O_{2},...,O_{t},q_{t}=S_{i}|\theta )$$

给定模型下，观察序列为$O_{1},O_{2},...,O_{t}$ 和 t时刻隐藏状态为$S_{i}$的联合概率。

向后变量
$$\beta_{t}(i)=P(O_{t+1},O_{t+2},...|q_{t}=S_{i},\theta )$$

给定模型下，t时刻隐藏状态为$S_{i}$并且后续观察序列为$O_{t+1},O_{t+2},...$的概率。

注意两个定义都可以使用我们前一篇文章所说的前向后向算法进行计算。就是一个递归计算的过程。

这两个变量合在一起就可以表示.在给定观察序列下，t时刻隐藏状态为i的概率。
$$\gamma_{t}(i)=P(q_{t}=S_{i}|O,\theta)=\frac{\alpha_{t}(i)*\beta_{t}(i)}{P(O|\theta)}=\frac{\alpha_{t}(i)*\beta_{t}(i)}{\sum_{i=1}^{n}\alpha_{t}(i)*\beta_{t}(i)}$$

又定义, 在给定观察序列下，t时刻从隐藏状态 i 转移到 j的概率。
$$\xi_{t}(i，j)=P(q_{t}=S_{i},q_{t+1}=S_{j}|O,\theta) = \frac{\alpha_{t}(i)*a_{i,j}*b_{j,O_{t+1}}*\beta_{t+1}(j)}{\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{t}(i)*a_{i,j}*b_{j,O_{t+1}}*\beta_{t+1}(j)}$$

隐藏状态为i的数学期望,其实就是算个平均值
$$E(i)=\frac{\sum_{t=1}^{T-1}\gamma_{t}(i)} {T-1}$$

隐藏状态从 i 转移到 j 的数学期望(是t时刻为i,t+1时刻为j的联合概率)
$$E(i,j)=\frac{\sum_{t=1}^{T}\xi_{t}(i，j)} {T-1}$$

所以自然可以推出
$$估算初始概率=\gamma_{1}(i)$$
$$估算转移概率=\frac{E(i,j)}{E(i)}$$
$$估算发射概率=\frac{E(i，O=为O_{x})}{E(i)}$$
上边$(O=为O_{x})$是指只计算隐藏状态为i，发射后的观察状态为x的情况$

然后使用上边计算的估算值，替换初始的参数。反复进行迭代，直到得到局部最优解。