基于LDA模型的白鹿原影视城网络舆情分析—

如何从海量科学文献中有效挖掘隐性研究主题和潜在演化模式，一直是众多研究者关注的问题。因此，提出了一种基于隐性狄利克雷分布(latent Dirichlet allocation，LDA)的主题演化分析模型.首先，在整个文本集合上使用LDA模型识别主题及其关键词，并计算每个时间窗口中文档-主题概率分布：然后，对各个时间窗口下的文本集合分别使用LDA模型计算出主题-词汇概率分布，并计算不同时间窗口下不同主题的相似度，从而得出主题强度的演化趋势：最后，通过相似主题下的词汇的概率分布得到主题内容的变化。LDA模型被广泛用于学科主题挖掘与演化分析，但相关研究较少考虑时间标签信息。本文以白鹿原影视城网络舆情研究为例，通过LDA模型聚焦多时间窗口的数据，对网络舆情的研究主题进行挖掘和聚类，帮助白鹿原影视城管理者从文本数据中了解游客对影视城的感情倾向，从而探寻改进的方面，对白鹿原影视城的发展和建设有着积极的经济价值与商业价值，在竞争中提升竞争力于吸引力，也可以使游客获得更好的服务体验，为其相关行业的发展带来积极的正面影响。

关键词：LDA模型；白鹿原影视城；网络舆情；感情倾向

3 白鹿原影视城网络舆情分析

3.1数据说明与处理

3.1.1数据来源

随着人们对信息重要性认识的加深，信息获取方式也越来越多，作为各种信息的载体，网络蕴含着大量的资源，如何快捷的从网络上获取所需信息成为人们亟待解决的问题。各种搜索引擎应运而生，例如传统的通用搜索引擎Alta Vista、yahoo!.google等。而这些搜索引擎存在着一定的局限性，尤其是它们无法搜索到深层网络(Deep Web)的信息。据Bright Planet公司技术白皮书，Deep Web里包含的可访间信息容量是一般的sur face Web的400-500倍。可见，研究Deep Wb爬虫对于提高搜索覆盖率和准确率有着非常重要的意义。

目前基于脚本语言的爬虫技术，通用的方法2是用脚本分析引擎来模拟润览器动作，执行脚本代码。开放源码的JavaScript引擎Spider Monkey提供了一个最基本的且易于扩展的JavaScript分析器。通过包装Spider Monkey，使其接口能接收从页面提取的JavaScript代码，返回执行JavaScript后得到的所有URL，从而完成爬虫任务。

数据的获取可以通过官方 API 和网页爬虫两种方式来抓取。因此，在数据源的选取上，应当着重选取具有一定威望的用户所发布的数据信息，字符长度应当在 4 个字符以上。

3.1.2数据预处理

首先，选择合适的检索词在CNKI数据库查找相关的中文文献，选取文献的标题和摘要作为主题挖掘的数据来源。对原始数据进行数据清洗，过滤征稿启事、新闻报道、会议通知等内容，进而进行中文分词、去除停用词和提取领域术语，其中去除停用词主要是过滤出现频率很高，却无实际含义的词语，包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等，以便提高后续分析的准确度和效率。

本文选取tf-idf作为H-LDA主题模型的文本向量特征，tf-idf(term frequency-inverse documentfrequency)是一种词频和逆向文件频率的统计方法，可以很好地反映出某个词语对于一份文档的重要程度，词语的重要性随着它在文档中出现的次数成正比增加，但同时也会随着它在语料库中出现的频率成反比下降。

3.1.3数据描述性分析

本文分析中所用的LDA主题模型是一种对于文本内容进行分析的方法。LDA通过对离散数据集建立模型，分析概率主题。这种模型的核心思想是，一个文档包含了若干主题，而每一主题又包括若干个主题词，但是该模型不注重文档内部的语句和词语的出现顺序和上下文关联。LDA主题模型主要通过以下过程建立的。首先，了解整个该文本的单词总数。其次，针对文本的每一个单词，抽样生成某一主题的概率分布。第三，针对该文本中的每一个单词，从该主题的分布中随机选择一个作为主题词，并且抽样生成主题词的概率分布。

3.2建立LDA模型

3.2.1数据分词设置词典

由于白鹿原文档篇幅太短等原因，直接利用LDA模型进行主题建模效果并不理想。克服白鹿原的短文本的数据稀疏性影响，需要对LDA主题建模进行调整或对LDA主题模型进行适当变形。种解决的思路是扩展文档的长度，将同一作者发表的白鹿原集合在一起，视为一个文档来进行主题建模，从而克服白鹿原文档篇幅过短的问题。利用最初在维基百科短文档上进行主题建模的LDA扩展模型ATM(Author--Topic Model)可以实现上述基于用户层面的白鹿原文档主题建模。此时，主题模型中“文档主题的分布被“作者-主题分布所取代。但是，由于ATM模型只能刻画用户层面的主题混合分布，对白鹿原帖子层面的主题混合情沉无法表达。Zhao等人对LDA模型进行了类似ATM的扩展，提出了Twitter-LDA模型。Twitter-LDA模型通过在ATM基础上引入背景词项分布φ，实现了同时在白鹿原用户层面和白鹿原帖子层面两个背景下进行主题建模，能够较好地刻画白鹿原文档的主题分布。本文使用Twitter-LDA模型来进行白鹿原文本的主题建模。

本文采用K-means聚类算法，它的算法简单并且收敛速度很快，是最经典的基于划分的聚类方法。它的基本思想是：在空间中寻找任意k个点做为中心开始进行聚类，对最接近这些中心点的对象进行归类。然后再通过迭代的方法，多次更新各个聚类的中心点，直到不再进行迭代，就是最终的聚类结果。具体步骤如下：首先，由Twitter-LDA建模得到的未聚类初始点集N中选取K个点(K＜N)作为聚类中心。其次，需要通过计算得到其他点与中心点的距离，将这些点与距离最近的中心点归为同一类。然后，为每一类主题寻找新的聚类中心，方法是计算同一聚类中的坐标平均值，这个值便可作为新的聚类中心。接下来，再次计算非中心点到中心点的距离，并以最近距离将主题进行聚类，使用同一聚类中坐标平均值更新聚类中心点，直到找到最佳中心点，迭代结束。

3.2.2建立模型训练

Twitter-LDA的贝叶斯网络图模型如图3-1所示。其中，p表示主题的词项分布，φ表示背景词项分布。0表示用户的主题分布，π表示控制在背景词项和主题词项之间选择的伯努利分布。微博帖子的生成过程如下：

(1)选择oB，oB服从Dirichlet(B)分布；选择r，π服从伯努利分布。

(2)对于1到K中的每个主题k，选择pz，pz服从Dirichlet(B)分布。

(3)对于1到U中的每个用户u:选择0u，0u服从Dirichlet(a)分布。

(4)对于1到Nu中的每个微博帖子s:选择主题zu，s，Zu，s服从Multinomial(0u)多项分布。

(5)对于1到Nu，s中的每个词项n:选择yu，s，n，yu，s，n服从Multinomial(π)多项分布。如果yu，s，n=O，选择wu，s，n，wu，s，n服从Multinomial(pB)多项分布：如果yu，s，=l，选择wu，s，n，wu，s，n服从Multinomial(oz，u，s)多项分布。从Twitter--LDA产生过程可以发现，当生成一条微博时，用户首先选择一个主题分布中的主题，然后从被选的主题的词袋中选择词项或者从背景模型的词袋中选择词项。该模型基于一个前提假设：一个单独的微博帖子通常只有一个单一主题。

3.3模型优化

LDA主题模型需要设定主题数目.通常，文本集合量越大，主题数目就越多.基于LDA的主题演化分析，需要对模型的泛化能力进行评估，以衡量模型对未观测到的数据的预测能力.本文采用困惑度这一公认的指标来衡量模型的泛化能力.困惑度越小，模型泛化能力越强.当主题数日不同时，模型的困惑度也不同，因此，可通过计算不同主题数目下模型的困惑度来确定最优主题数目，计算公式为

3.4模型结论

1.部分主题的强度呈下降趋势，如Topic24和Topic27.Topic24的信息为“正面评价”，为了深入了解白鹿原影视城近况，因评价言论日渐完善，提升空间逐渐变小，因而关注度逐年递减。

2.部分主题强度变化幅度小，比较稳定，如Topic1，其包含的信息为“中性评价”，中性评价收舆论的影响较大，会受到持续的关注，但总体强度不高。

3.部分主题强度呈上升趋势，如主题Topic30，其包含的信息为“负面评价”，在旅游资源爆炸式增长的今天，旅游景点竞争压力激增，更多的优质景点将会继续取代老旧景点，故负面评价的信息将会持续上升。

基于LDA模型的白鹿原影视城网络舆情分析——文档_数据