R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

查询侠
• 阅读 747

摘要

主题模型允许对文档中的术语频率发生进行概率建模。拟合模型可用于估计文档之间以及一组指定关键字之间的相似性,这些关键字使用称为主题的额外潜在变量。R 包主题模型提供了基于文本挖掘包 tm 中的数据结构拟合主题模型的基本基础结构。

关键词: 吉布斯采样, R, 文本分析, 主题模型

1. 引言

在机器学习和自然语言处理中,主题模型是生成模型,它们为给定语料库中文档中的术语频率出现提供了概率框架。仅使用术语“频率”假定单词在文档中出现的顺序可以忽略不计。这个假设也被称为文档中单词的可交换性假设,这个假设导致了词袋模型。

2. 主题模型规范与估算

对于这两种模型(LDA 和 CTM),主题 k 的数量必须先验地固定下来。LDA 模型和 CTM 假设文档 w = (w1, . . , wN) 的以下生成过程,该文档包含来自由 V 个不同术语组成的词汇表中的 N 个单词,∈ 对于所有 i = 1, . . , N.

对于 LDA,生成模型由以下三个步骤组成。

步骤 1:术语“分布β由以下方式确定:

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

步骤 2:文档 w 的主题分布比例 θ 由下式确定

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据 

步骤3:对于N个单词中的每一个wi

(a) 选择一个主题 zi ∼ 多项式 (θ)。

(b) 从以主题 zi 为条件的多项式概率分布中选择一个词 wi:p(wi |子 , β)。

β是主题的术语分布,包含给定主题中单词出现的概率。

3. 应用:主要函数是LDA ()和CTM ()

包主题模型中用于拟合 LDA 和 CTM 模型的主要功能是 LDA() 和 CTM(),分别

LDA(x, k, method = "VEM", control = NULL, model = NULL, ...)
CTM(x, k, method = "VEM", control = NULL, model = NULL, ...)

这两个函数具有相同的参数。x 是具有非负整数计数条目的合适文档术语矩阵,通常是从包 tm 获得的“文档术语矩阵”。

4. 示例:JSS论文摘要

在统计软件杂志(JSS)的摘要集合中进行了演示。

R> JSS_papers\[, "description"\] <- sub(".*\\nAbstract:\\n", "",
+ unlist(JSS_papers\[, "description"\]))

为了结果的可重复性,我们仅使用截至2010-08-05发表的摘要,并省略摘要中包含非ASCII字符的摘要。

最终数据集包含 348 个文档。在分析之前,我们使用包tm将其转换为“语料库”。希腊字母,下标等摘要中的HTML标记使用包XML删除。

R> corpus <- Corpus(VectorSource(sapply(JSS_papers\[, "description"\],

文档集使用函数文档术语矩阵从包 tm 导出到文档术语矩阵。使用控制参数对术语进行词干处理,并删除非索引字、标点符号、数字和长度小于 3 的术语。

R> JSS_dtm <- DocumentTermMatrix(corpus,

R> dim(JSS_dtm)

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

包含此术语的文档上的平均术语频率-反向文档频率 (tf-idf) 用于选择词汇。

R> summary(col\_sums(JS\_dtm))

R> summary(tem_tidf)


R> summary(col\_sums(J\_dtm))

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据 

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据 

经过预处理后,我们有以下文档术语矩阵,其中包含减少的词汇量,我们可以使用它来适应主题m

R> dim(JSS_dtm)

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据 

在下文中,我们使用 (1) 具有估计α的 VEM、(2) 具有α固定的 VEM 和 (3) 具有 1000 次迭代的预烧的 Gibbs 采样以及记录 1000 次迭代的每 100 次迭代的 30 个主题的 LDA 模型。

在调查了性能后,我们将主题数量随意设置为30个,主题数量从2到200不等,使用10倍交叉验证。

为了比较拟合模型,我们首先研究拟合 VEM 的模型的α值,α估计的 VEM 和α固定的模型。

R> sapply(jss_TM

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

图 1:不同估计方法的所有文档分配到最可能主题的概率的直方图

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

我们看到,如果估计α,则将其设置为远小于默认值的值。

熵度量还可用于指示四种拟合方法的主题分布有何不同。

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

值越高,表示主题分布分布在主题上越均匀。文档的估计主题和主题的估计术语可以使用便利函数主题()和术语()获得。每个文档最可能的主题由以下公式获得

R> Topic <- topics(jss_TM\[\["VEM"\]\], 1)

每个主题的五个最常用术语由下式获得:

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

如果文档的任何类别标签可用,则这些标签可用于验证拟合模型。

这些论文之间的相似性表现在以下事实中:大多数论文的主题与其最可能的主题相同。主题7的十个最有可能的术语由下式给出

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

显然,这个话题与特刊的一般主题有关。这表明拟合主题模型在不使用此信息的情况下成功地检测了同一特刊中论文之间的相似性。

5. 通讯社数据案例

在下文中,分析了1992年第一次文本检索会议(TREC-1)(Harman 1992)通讯社数据的子集。

R> dim(AssociatedPress)

它由2246个文档组成,词汇表已经被选中,只包含出现在超过5个文档中的单词。

该分析使用 10 倍交叉验证来评估模型的性能。

当折的值从 1, . . . 10 时,我们用三种不同的变体来估计模型。

主题数量从以下方面不等:

R> topics <- 10 * c(1:5, 10, 20)

对于α VEM,我们有:

对于固定α VEM:

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

图 2:拟合 VEM 模型的测试数据的困惑。每行对应于 10 倍交叉验证中的一个折叠。

对于 Gibbs 采样,我们使用 1000 的预烧,然后是 1000 次抽取,并返回所有抽取

+ model = train\[\[which.max(sapply, train, logLik)\]\],
+ control = list(estimate.beta = FALSE, burnin = 1000, thin = 100,

图 2 给出了使用 VEM 拟合的模型的测试数据的困惑度。对于这两种估计方法,建议将大约40个主题作为最佳方法。VEM估计α值在左侧的图3中给出。显然,这些值比用作默认值 50/k 的值小得多。同样,请注意,较小的α值表示文档上的主题分布大部分权重位于角落。这意味着文档仅包含少量主题。对于使用 Gibbs 抽样拟合的模型,还通过确定测试数据的困惑来执行模型选择。右边的图 3 表明,大约 20-40 个主题是最佳主题。

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

图 3:左图:使用 VEM 拟合的模型的估计α值。右图:使用吉布斯抽样拟合模型的测试数据的困惑度。每行对应于 10 倍交叉验证中的一个折叠

确定具有最小距离的最佳匹配,并相对于其八个最有可能的单词进行比较。

R> terms(AP$VEM, 8)\[,best_match\[1:4\]\]

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

这四个主题显然是关于同一主题的,并且由非常相似的单词组成。但是,主题之间的这种清晰对应关系仅存在于主题的一小部分中。图 4 中具有匹配主题的距离图像图也表明了这一点。根据图像,我们不会期望最差的四个匹配主题有很多共同点。通过检查每个主题的八个最重要的单词也可以看到这一点。

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

6. 扩展到新的拟合方法

包主题模型已经为 LDA 模型提供了两种不同的估计方法,为 CTM 提供了一种不同的估计方法。用户可以通过方法参数扩展方法并提供自己的拟合函数。在下文中,我们概述了如何使用包 rjags 来拟合 LDA 模型,使用具有不同实现的 Gibbs 采样。

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据 

图 4:解决方案的主题与 40 个 VEM 主题和 40 个 Gibbs 采样主题相匹配。

R> BUDEL <-
+ "model {
+ for (i in 1:length(W)) {
+ z\[i\] ~ dcat(theta\[D\[i\],\]);
+ W\[i\] ~ dcat(beta\[z\[i\],\]);
+ }

以下代码实现了一个新的方法函数,以使用带有包 rjags 的 Gibbs 采样来拟合 LDA 模型。在此用于拟合模型的函数中,未确定语料库中每个单词的对数似然以及最可能的主题成员身份,因此不是返回对象的一部分。

我们仅将新的拟合函数应用于通讯社数据的一小部分,并且仅执行 Gibbs 采样器的 20 次迭代,以限制所需的时间。所需的时间也与吉布斯采样器的LDA特定实现进行了比较。

R> terms(lda_rjags, 4)

从这个例子中可以看出,在包主题模型中添加新的估计方法需要编写一个合适的拟合函数。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
深度学习技术开发与应用
关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习DQN算法系列9.深度策略梯度DDPG,PPO等第一天9:0012:0014:0017:00一、强化学习概述1.强化学习介绍2.强化学习与其它机器学习的不同3.强化学习发展历史4.强化学习典
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Nginx + lua +[memcached,redis]
精品案例1、Nginxluamemcached,redis实现网站灰度发布2、分库分表/基于Leaf组件实现的全球唯一ID(非UUID)3、Redis独立数据监控,实现订单超时操作/MQ死信操作SelectPollEpollReactor模型4、分布式任务调试Quartz应用
Stella981 Stella981
3年前
R语言代写线性混合效应模型Linear Mixed
本文介绍了线性混合效应模型的新型贝叶斯分析。该分析基于部分折叠的方法,该方法允许某些组件从模型中部分折叠。得到的部分折叠的Gibbs(PCG)采样器被构造成适合线性混合效应模型,预计会比相应的Gibbs采样器表现出更好的收敛特性。为了构建PCG采样器而不使组件更新复杂化,我们考虑通过在线性混合效应模型中根据组内方差表示组间方差来重新参数化模型组件。简介
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
ThinkPHP 根据关联数据查询 hasWhere 的使用实例
很多时候,模型关联后需要根据关联的模型做查询。场景:广告表(ad),广告类型表(ad\_type),现在需要筛选出广告类型表中id字段为1且广告表中status为1的列表先看关联的设置部分 publicfunctionadType(){return$thisbelongsTo('A
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这