本文摘要:这是发表在中文信息学报上的一篇中文信息处理论文论文,潜在语义索引通过奇异值分解,将文档在高维向量空间模型中的表示,投影到低维的潜在语义空间中,有效地缩小了问题的规模。它生成的高维向量矩阵适于对象间的匹配比较;它不仅是知识表述的工具,而且也是
这是发表在中文信息学报上的一篇中文信息处理论文论文,潜在语义索引通过奇异值分解,将文档在高维向量空间模型中的表示,投影到低维的潜在语义空间中,有效地缩小了问题的规模。它生成的高维向量矩阵适于对象间的匹配比较;它不仅是知识表述的工具,而且也是机器学习的一种模型。随着不断扩充新的方法来完善LSI,以及进一步研究如何将LSI基本思想方法和图像等具体处理技术相结合,使其在更为广阔的领域中得到有效的利用。《中文信息学报》(双月刊)创刊于1986年,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。国内外公开发行。
摘 要:潜在语义索引(LSI)是一种信息检索代数模型,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。文章分析了潜在语义索引的理论基础:向量空间模型和奇异值分解;阐述了潜在语义空间构成的具体步骤;并探讨了潜在语义索引在文本检索和图像检索等方面的应用。
关键字:潜在语义索引;VSM;SVD;信息检索
1 引言
在现代信息检索系统中,通过关键词进行检索是最为常见的做法。大量研究表明,基于关键词的检索系统存在所谓“同义词”和“反义词”的固有缺陷:前者是指表达同一概念的词语可以有多个,因此,用户查询中所用的词语很可能在相关文档中不存在,从而造成检出率下降;后者是指同一个词语可以表达多个概念,造成检出的文档中虽然包含该词语,但在上下文语境中的意思却非用户所期望,从而导致准确率下降。潜在语义索引方法正是为了解决上述问题而提出的。
2 潜在语义索引概述
潜在语义索引,也称隐性语义索引或隐含语义索引,用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。
3 潜在语义索引的理论基础
3.1 向量空间模型
向量空间模型的基本思想是以向量来表示文本,它的优点在于处理逆辑简单、快捷,它将非结构化的文本表示为向量形式,使得各种数学处理成为可能。例如:2008年原媛等发表的《基于向量空间的信息检索模型的改进》中,因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型 [1]。
3.2 矩阵分解方式
早先信息检索利用正交分解方法,但这种方法已经被奇异值分解取代。
对词汇一文本矩阵A的奇异值分解可以用以下公式表示:
(1)其中U是t×t的正交矩阵,它的每一列是A的左奇异向量,V是d×d正交矩阵,它的每一列是A的右奇异向量, Σ是t×d对角矩阵,对角线元素是A的奇异值,按大小顺序排列,即λ1≥λ2≥……≥λmin(t,d)。A的k秩近似Ak是让A的除了前k个最大奇异值以外的奇异值都置为零。得到以下公式:
(2)其中Uk是U的前k列形成的t×k矩阵,Vk是V的前k列形成的d×k矩阵,Σk是
A的k个虽大奇异值形成的k×k对角矩阵。
4 潜在语义空间构成的具体步骤
4.1 “词汇-文档”矩阵的形成
在潜在语义索引中,则需要首先构建一个词汇-文档矩阵X。由各索引词在每篇文本中的出现频率生成词汇-文档矩阵X,该矩阵中,第i行第j列的元素数值Xij表示第i个索引词在第j篇文本中出现的频率。
4.2 奇异值分解
对X进行奇异值分解后,得T、S、D’三个矩阵,S为r阶对角矩阵,对角线元素为奇异值,T为t×r阵,D’为r×d阵。每一词汇、每篇文本都能根据分解结果,在一个几何空间内,找到其相应的固定点,然后,可以依据其相互间距离之远近来判断其相关程度之高低,词汇的空间位置由t×r阵T而定,文本则由r×d阵D而定,该空间就被称为r维潜在语义空间。
4.3 提问式的几何表示
词汇和文本在空间内定下坐标后,还必须为提问式找到其几何表示方法使它能在同一个k维语义空间里表示,然后与空间里的文本进行比较。由于提问式和文本相似,通常也由多个词汇构成,因此可以将它称为“伪文本”,记作q。
将提问式看作为普通文本,效仿“词汇-文档”矩阵的建构方法,根据索引词在提问式中出现的频次,也能得到一列向量,记作Xq,用下式对q进行处理:
(3)Dq即为提问式的向量表示,即得k维语义空间中提问式的坐标。
词汇、文本、提问式三者的坐标向量,构成了我们所需的潜在语义空间。
5 潜在语义索引的应用
5.1 文本检索
5.1.1 跨语言检索
近几年对于基于潜在语义索引的跨语言检索有了快速发展,比如2010年宁健等发表的《基于改进潜在语义分析的跨语言检索》采用基于奇异值矩阵分解的改进潜在语义分析的方法为生物医学文献双语摘要进行建模 [2]。
5.1.2 信息过滤
信息过滤技术结合了现有的信息检索方法,对解决网络信息的个性化、动态化以及提高被查询信息对用户的可用度有很大作用。2008年张虹等发表的《基于隐式反馈的LSI个性化信息过滤方法的研究》提出利用隐式反馈技术来解决如何提供给不同用户以不同信息结果这一问题[3]。
5.1.3 文本聚类
潜在语义索引可用于文本聚类中,提高文本聚类的准确率。比如2011年钟将等发表的《基于成对约束的主动半监督文本聚类》提出一种基于成对约束的主动半监督文本聚类方法 [4]。
5.2 图像检索
直观地看,图像可以表示为像素矩阵,但是单个像素并不具备语义,所以必须寻找能反映图像语义内容的矩阵。2009年龚主杰发表的《潜在语义索引在图像检索中的应用》中提出了将数学上的凸点从图像中提取出来后,用局部特征描述符来描述它们并可以构建一个“可视词汇—图像矩阵” [5]。
5.3 认知科学
在认知心理学中,LSI是一种语言学习模型。LSI的学习同孩子的学习过程类似,这两者的学习效率相差也不大。Landauer和 Dumais教授等,通过文本理解、托福测验、学校儿童对词汇的学习等等方面,应用LSI与人类行为相对照,得出了LSI可以获取、归纳和表述知识的结论。
5.4 潜在语义索引的其他应用
目前,除上述几种常见的潜在语义索引应用之外,许多学者还提出了许多潜在语义索引的应用领域,拓展了潜在语义索引的应用范围。比如2008年米晓芳等发表的《基于潜在语义差异的医学网页聚类》提出一种新的潜在语义差异模型,利用 FCM 算法进行聚类并计算类间包含度 [6]。
转载请注明来自发表学术论文网:http://www.fbxslw.com/jylw/8246.html