基于大数据技术的山东舆情监测, D q7 {8 l" n' b" q4 l

( R- v, X2 f- r8 Q* J 互联网+时代,移动互联网技术的快速发展和在各个领域中的应用,为其他行业的发展提供了技术支持。
$ h! s. N% k8 P; P/ @& p% u 舆情的发生、发展、演化及传播正在发生翻天覆地的变化,与之相应的舆情监测、分析也越来越受到政企单位的重视。利用信息技术、舆情监测等方面理论,进行基于大数据的网络舆情监测能够发现舆情主题,分析舆论情感倾向,分析传播趋势;基于数据挖掘技术,还能帮助政企单位从事件前、事件中和事件后三个阶段进行舆情分析,对其风险进行评估,了解其发展趋势,及时提出预警。
. I* E& h1 z- N2 p9 T9 K 基于大数据技术的舆情分析
, d; U4 K" w( H/ w" }4 V O 由于舆情数据存在于互联网的海量文本数据之中,所以进行舆情数据分析,主要用到的是文本分析的方法。因为文本数据通常是非结构化的,在拿到文本数据之后的一个关键环节是要将其转化为能被计算机理解和处理的结构化数据,才能进一步对其进行完整、系统的处理分析,提炼出有意义的部分。
# E- U1 _, }7 d+ | 大数据舆情分析方法
$ }$ f" s9 b& W; y7 V8 e 1.数据采集。
; k- u% c* A7 K1 Z2 n% p: {3 b 明确分析的目的和需求后,通过不同来源渠道采集数据。
2 C, Q2 ^8 n( f* J5 v 2.文本清洗和预处理! d, O9 |" P9 r/ w2 Q
文本清洗首要是把噪音数据清洗掉,然后根据需要对数据进行重新编码进行预处理。
1 C. Q1 O: r4 C2 _9 s 3.分词
) ?+ H8 j8 s' y5 E* `0 V p 在实际进行分词的时候,结果中可能存在一些不合理的情况。因此,在基于算法和中文词库建成分词系统后,还需要不断通过训练来提升分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷很容易影响分词的准确性。
% l% _( c* [5 f 4.词频和关键词
- p7 l7 ?) l) E2 L5 W5 l 词频就是某个词在文本中出现的频次。简单来说,一个词在文本中出现的频次越高,这个词在文本中就越重要,就越有可能是该文本的关键词。2 y1 L/ ^8 V% m5 u
5.语义网络分析- }" s/ k. R. Y
语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系进行数值化处理,再以图形化的方式展示词与词之间的结构关系。这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度进行分析展现。
8 n) t% G- |' ?4 M 6.情感分析9 H' N" }" V z* k, J1 n
情感分析,主要是分析具有情感成分词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。还可以综合全文本中所有语句,判定总舆情数据样本的整体情感倾向。' Z0 I& c/ a+ g' \5 l
|