隐马尔可夫模型估计的新方法及应用案例

所属分类：经济论文阅读375次时间：2020-09-29 10:11

本文摘要：内容提要隐马尔可夫模型广泛应用于经济、金融及大数据领域。目前，模型估计的主要方法是基于极大似然估计的 Viterbi 算法。本文从随机过程的常返理论出发，给出了隐马尔可夫模型参数估计的新方法。首先，利用从同一状态的观察值出发到固定点的首中时有

　　内容提要隐马尔可夫模型广泛应用于经济、金融及大数据领域。目前，模型估计的主要方法是基于极大似然估计的 Viterbi 算法。本文从随机过程的常返理论出发，给出了隐马尔可夫模型参数估计的新方法。首先，利用从同一状态的观察值出发到固定点的首中时有相同分布的原理，给出隐状态个数的估计;再根据首中时数学期望与平稳分布的关系得到平稳分布和发射概率的估计;最后以上述方法为基础，完成了隐马尔可夫模型的两个应用研究：构建个性化推荐系统;揭示我国经济周期不同阶段间的转换规律。本文提出的新估计方法可以大幅减少计算复杂度，是 Viterbi 算法的有益补充。

　　关键词隐马尔可夫模型推荐系统经济周期

统计研究

　　一、引言

　　隐马尔可夫模型是混合模型的推广(Bickel et al.，1998)，金融领域则常称之为马尔可夫区制转换模型;它是迄今为止应用最为广泛的统计模型，尤其在语音识别(Rabiner，1989)、人脸识别(Shang & Chan，2009)、图像处理等大数据领域(Aghdam， 2019)。

　　经济论文投稿刊物：《统计研究》(月刊)是由中国统计学会;国家统计局统计科学研究所主办的统计科学刊物。本刊在广大作者、读者的关心支持下，逐渐形成了自己的办刊特色，成为统计领域最具权威性的理论刊物。

　　最近，经济领域的建模分析也大量应用了隐马尔可夫模型(李正辉、郑玉航，2015)。有限状态的隐马尔可夫模型可以理解成装有不同颜色球的一组罐子(Jeff，2006)。每次抽样时按初始分布选择第一个罐子，并从中取出一球;在第一次罐子的基础上选取第二个罐子，第二次选取的罐子只与前一次选的罐子有关，在第二个罐子里取出第二个球，如此继续。通常，罐子是看不到的，所有的统计推断只能通过观察值(选取的球序列)完成。

　　本文将在隐状态个数 (罐子数) 未知的条件下，通过可观测变量序列，研究隐马尔可夫模型的参数或非参数估计方法，即从观察序列出发估计模型的参数或分布(学习问题)。众多学者对这一问题做了大量研究 (刘鹤飞等，2017)。 Douc & Moulines(2012)证明了隐马尔可夫模型参数的极大似然估计是强相合的，但在隐状态数未知的条件下，似然函数较难有显式表达。

　　De Castro et al. (2016)、Gassiat & Rousseau(2014)利用贝叶斯方法对隐马尔可夫模型进行估计，但这一方法在利用对数似然比时加了一项惩罚函数，且模型估计的效果严重依赖惩罚函数的选择。本文从马尔可夫过程的常返理论出发给出了隐马尔可夫模型的所有参数估计。实际应用中，Viterbi 算法是隐马尔可夫模型的基本算法，它的统计原理是极大似然估计，算法设计中基于向前向后步优化的 EM 准则，逐步拟合模型参数;但这一算法也继承了 EM 算法的缺陷：耗时巨大，且估计的参数可能是局部最优的。

　　本文给出的新估计方法的优点是准确率高，计算复杂度低。常规的 Viterbi 算法随机选择隐状态个数，然后进行转移矩阵的合并或分解，最后对各参数进行极大似然估计，要达到理想的收敛值通常要进行上万次的迭代(楼振凯，2019)，相比之下，我们的方法目标明确，算法简捷。本文的另一贡献是给出了基于新估计方法的个性化推荐系统。推荐系统常用来帮助使用者在众多产品中尽快发现其感兴趣的目标，它在各网络平台大量使用，如 Google.com，Amazon.com 和我国的百度、阿里巴巴等。针对不同对象的个性化推荐系统更是重点建设对象，Google 和百度近年来在这方面取得了长足进步，但准确度更高的个性化推荐系统一直在建设中。

　　本文将用户以往信息视为一隐马尔可夫链，基于此构建用户的个性化推荐系统。在 Grouplens Reach 数据集上的实验表明，本文方法的推荐准确率优于其他推荐算法。实证分析部分根据 GDP 增长率数据，分析了我国的经济运行周期。经济周期理论由来已久，不同周期的划分、识别和监测是经济周期理论研究的一个核心问题; 经济变量通常表现出不稳定性及非线性关系，识别和监测经济周期的波动主要采用的是隐马尔可夫模型 (马尔可夫区制转换模型)。

　　传统的经济周期理论将经济周期划分为经济的扩张阶段和收缩阶段(二区制)，在经济运行中两者交替循环，从而形成一定的波动规律。部分国外学者将经济周期分为三区制或四区制; 国内学者在研究我国的经济波动规律时，通常人为设定为二区制或三区制。本文认为，经济周期的区制划分应充分考虑各个国家的不同特点，由具体的经济数据决定。我们将利用隐马尔可夫模型及估计新方法，确定我国自 2000 年第一季度至 2019 年第四季度经济周期的变化及经济周期不同阶段间的转换概率。

　　二、模型描述

　　隐马尔可夫模型是一个双变量随机过程 {(Xn，Yn)，n≥1｝，其中{Xn，n≥1｝是有限状态的马尔可夫链;对给定的 Xn，Yn 关于其他变量独立。通常，马尔可夫链是隐藏不见的，观察值是 Yn 序列。以下给定一些记号及假设，设马尔可夫链 {Xn，n≥1｝的状态空间为 S={x1，x2 ... xS｝，转移概率矩阵为 As×s。本文有三个假设。假设 1:马尔可夫链{Xn，n≥1｝是遍历的。

　　因为状态空间有限，这一条件并不严苛，几乎所有研究隐马尔可夫模型理论性质及统计推断的文章都有此要求，满足这一要求的马尔可夫链是正常返，且有唯一的平稳分布。假设 2:马尔可夫链{Xn，n≥1｝的初始分布为其平稳分布。实际应用中并不要求隐马尔可夫模型有平稳的初始分布，因为对一个常返的马尔可夫链，经历一段时间后即可平稳，所以通常的做法是去除前若干个观察值，即能达到要求。

　　设给定 Xn=xk 时，Yn 的分布 μk 通常被称为发射概率。本文对 Yn 变量的分布类型不做限制，可以是离散的，也可以连续，但具有如下假设：假设 3:每个 μk 的取值范围不相重叠。在隐状态个数的估计中，只要求每个状态下的观察值不完全重叠即可，为了其他参数的估计更方便，表达更简洁，我们增强了假设 3。

　　下面给出一个隐马尔可夫模型的常用例子。例(正态分布的混合)假设隐状态个数为 2，A 是不同状态之间的转移概率矩阵，两个隐状态所对应的发射变量分别服从 N(μ(1)，σ2 )和 N(μ(2)，σ2 ) 的正态分布。此时，Yn 是具有不同期望但同方差的二个正态分布的混合; 在经济领域则是生成机制为 Yn=μ(k)+σεi 的马尔可夫区制转换模型，其中 εi 为白噪声。这一模型也常用于模拟受噪音干扰的信号传输系统。

　　三、隐状态个数的估计

　　马尔可夫链{Xn，n≥1｝的状态空间为 S={x1，x2 ... xS｝，s 即为隐状态个数，或称之为隐马尔可夫模型的阶。我们分两种情况讨论，首先假设观察值空间有限，设其为 O={o1，o2 ... om｝。 {y1，y2 ... yn｝是来自隐马尔可夫模型 {(Xn，Yn)，n≥1｝的一个观察序列，令 τij 为 Yn 从 oi 出发到 oj 的首中时，即 τij=inf{t>0，Y0=oi，Yt=oj｝。令 τ=(τij)m×m 及 Eτ=(Eτij)m×m 分别为首中时矩阵及其期望。如果 oi 和 oj 来自同一个罐子，则对任意的 ok，τik 和 τjk 同分布，故有 Eτik=Eτjk。

　　对一个足够长的观察序列，因为常返性，可以得到独立同分布的首中时序列{τ n ik， n≥1｝和{τ n jk， n≥1｝，分别用它们的均值代替数学期望，得到矩阵 τ=(τij)m×m，通过对(τij)m×m 的行或列的聚类即可获得 HMM{(Xn，Yn)，n≥1｝的阶的估计s赞。按 Zheng 等(2019)，s赞是 s 的强相合估计量。观察值也同时聚为s赞类，分别为{y11，y12...y1n1 ｝... {ys 赞 1，ys 赞 2...ys 赞 n1 ｝类，且对应的状态序列估计也同步完成。现在考虑发射变量为连续分布的情形，此时观察值仍为{y1，y2 ...yn｝，但若 μk 为连续型分布函数时， τij 可能是无穷大，此时，我们将观察值分成若干个小区间(高维时则分成区块)，令其分别为 A1，A2... An，按上面步骤，仍可完成对返回时的聚类，以获得阶的估计值s赞及观察值对应的状态序列。

　　上述聚类估计的原理是同一类的观察值到某一固定观察值的首中时是同分布的，因而具有相同的数学期望，然后用首中时的样本均值代替其数学期望进行聚类。根据中心极限定理，聚类的阈值为 n-1/2 的常数倍，其中的 n 是样本容量。实际使用中，我们选取欧氏距离作为距离函数，阈值为 3 倍样本均方差。这种方法的好处是适用于高维发射分布的隐马尔可夫模型，因为是按行聚类，只要求每个状态的观察值不完全相同即可;同时计算复杂度低，便于计算机操作，是常用 Viterbi 算法的重要补充。

　　四、其他参数的估计

　　当观察空间离散时，由马尔可夫过程常返理论知，平均返回时间是平稳分布的倒数，据此可以估计平稳分布。当观察空间连续时，我们仍可按上述同样方法得到平稳分布的估计值，但发射分布的估计要改为核密度估计。

　　五、数值模拟

　　本文首先根据隐马尔可夫模型的定义生成一个观测数据集，然后按照上述方法获得隐状态个数，初始分布，转移概率及发射概率的估计，以验证上述估计量的有效性。所有试验环境为配备 core i5 和 8 GB RAM 的 windows 7 PC 机。

　　六、基于新估计方法的网络推荐系统

　　根据用户以往信息，打造个性化推荐系统 (Aghdam，2019) 是各大网络平台努力建设的重要目标。国际最大的在线电影租赁公司 Netflix 不定期地主办国际推荐系统大赛，推荐系统的准确率每提高 1%，都将获得丰厚奖金。阿里巴巴公司也设计了类似的“金阿里”竞赛。Google 公司推荐系统深受全球好评，近期百度的推荐系统也取得了长足进步。本文基于隐马尔可夫模型建立个性化推荐系统，并根据实证结果再次验证本文估计的效果。

　　(一)数据来源因为 Netflix 数据集无法获取，我们选取Grouplens Reach 数据集建立电影推荐系统。Grouplens Reach 包括 17770 部电影和 480189 个用户的相关数据，其中包括用户基本信息，用户每次观看电影的类型，电影名，观看时间以及对所看电影的打分。我们利用 Grouplens Reach 数据集，验证上文方法的有效性。

　　(二)模型建立本文选取数据集中观看电影数超过 2000 部的用户 44 名，将每个用户观看的电影类型作为观测序列，观测集包括喜剧、恐怖片、动作片、浪漫剧、冒险片等 18 种电影类型。利用上文方法首先就每个用户构建隐马尔可夫模型：观察值为该用户的观看电影类型，由此估计隐马尔可夫模型的的隐状态个数，此时的隐状态个数可理解为用户的电影选择偏好(喜欢、不喜欢等);进而各状态之间的转移概率和具体某个类型的观测值对应的发射概率;最后根据概率最大的原则给出推荐的电影类型。

　　七、基于隐马尔科夫模型对经济周期的实证分析

　　经济周期由经济数据的波峰、波谷和运行时间确定，在经济学中有严格的定义;但对经济周期不同阶段(即隐状态个数，也称为区制)的划分则有较大的主观性，有二区制说、三区制说和四区制说。经济周期研究中，由于区制数难以估计，通常预先假定，然后通过某个准则进行模型选择;但事实上，区制个数是模型的决定性参数，它直接决定模型的结构和其他参数的构成，因而影响模型的拟合效果和预测的准确率。

　　本文认为区制个数应该由经济数据本身的结构决定。 GDP 是国家经济状况的直接反映，本文选取 GDP 作为经济运行指标，构建发射分布为高斯分布的隐马尔可夫模型，其中的隐状态对应的是不同的经济区制，而隐状态之间的转移概率即为不同区制间相互转换的可能性。数据的预处理方法为：根据实际 GDP 数据，计算出它们的同比增长率。样本区间为 2000 年 1 季度至 2019 年 4 季度，数据来源于锐思金融数据库。

　　八、结论

　　本文研究了隐马尔可夫模型的参数估计及应用。首先利用常返理论给出了隐状态个数的估计，在此基础上进一步估计了平稳分布和发射概率，进而利用加权极大似然估计得到转移概率的估计。数据模拟的结果表明新方法能有效识别隐马尔可夫模型的结构。隐马尔可夫模型识别中，隐状态个数的估计是模型可识别的标志，也是其他参数准确估计的前提。我们提出了一种新的隐状态估计方法，不同于现在流行的 Viterbi 算法，我们的方法目标明确，算法简捷。在其他参数的估计中，我们要求模型每个状态的发射变量取值不相重叠，这一条件过于严苛，建议在本文隐状态个数估计的基础上结合 MCMC 方法估计其他参数，这将大大提高模型适用范围，同时降低计算成本。

　　数值模拟的结果表明：针对不同的发射变量，本文方法均能准确估计隐状态个数，平稳分布的估计也较为稳健;发射变量为连续分布时，发射变量的密度估计还有待提高。我们基于 Grouplens Reach 数据集构造了个性化的电影推荐系统，与其他系统相比，隐马尔可夫模型的准确率最为突出;同为隐马尔可夫模型，本文构造的估计方法优于现有算法。实例应用中，本文对我国的 GDP 实时数据增长率建立隐马尔可夫模型，分析了2000 年第一季度至 2019 年第四季度期间内我国经济周期区制个数及其相互转化的概率。实证结果表明：此时间段我国经济周期呈现两区制，且经济运行较为平稳，区制间的转换概率较小。

　　参考文献：

　　1. 李正辉、郑玉航：《基于混频数据模型的中国经济周期区制监测研究》，《统计研究》2015 年第 1 期。

　　2. 刘鹤飞、王坤、蒋成飞：《隐状态个数未知的隐马尔可夫多元正态分布的贝叶斯推断》，《统计研究》2017 年第 12 期。

　　3. 楼振凯，侯福均，楼旭明：《部分状态可见的隐马尔可夫模型状态序列的估计方法》，《统计研究》2019 年第 6 期。

　　4. Bickel P.J., Yacov R., Tobias R. Asymptotic Normality of the Maximum-likelihood Estimator for General Hidden Markov Models. The Annals of Statistics, 1998, 26(4): 1614～1635. 5. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech. Recognition. IEEE, 1989, 77.

　　作者：朱斌郑静