舆情处理

大数据在舆情研究中的应用

作者：admin 来源：未知时间：2022-01-13 16:28:45 点击：次

[文章前言]：传统的民意研究方法主要是基于问卷和抽样调查的民意调查法，最早起源于20世纪30年代的美国，以美国民意研究所（盖洛普公司的前身）为标志。它是在不断汲取统计学、心理学、社会

传统的民意研究方法主要是基于问卷和抽样调查的民意调查法，最早起源于20世纪30年代的美国，以美国民意研究所（盖洛普公司的前身）为标志。它是在不断汲取统计学、心理学、社会学、人口学等多学科的成果基础上逐渐发展起来的，目前已形成了整体设计、抽样方法、样本框建立、问卷设计、样本获取、实地调查、质量控制、数据处理与分析、报告撰写等一整套完善的程序和规范，调查方法也从早期的入户调查和邮寄问卷发展到电话调查、计算机辅助访问系统等多种形式。

但无论中外，剧烈的社会变动正在使传统的民意调查的实施变得越来越困难。在我国，入户调查开始被街头拦访取代。首先，由于户籍制度的限制，大量的外来常住人口的资料在现有抽样框资料中得不到体现。这部分人的比例在大中城市甚至达到30%～40%。其次，多数中高档住宅社区实行严格的保安制度和门禁制度，使得针对中高收入人群的调查基本无法实现。这两个因素使得传统面访调查获得的数据与实际人口构成往往形成很大偏差。但街头拦访由于其难以做到随机抽样和严格的质量控制，而使调查结果大打折扣。

在欧美各国，电话调查方法一直是主流，但几乎都存在成本飙升、有效应答率下降的问题。据美国皮尤中心的分析，电话调查的有效应答率已从1997年的36%下降到了2012年的9%。

（一）在线概率样本调查

随着网络兴起与普及，在线调查迅速普及。在线调查是指通过互联网及其调查系统把传统的调查、分析方法在线化和智能化，二者并没有本质的不同。但在样本选择、质量控制等方面依然面临很多新的课题。

由于在线调查的低门槛、低成本和便利性，越来越多的非专业调查机构也开始采用在线调查的方法，这造成了调查结果的品质差异巨大和公众认知的混乱。其中，最普遍的是各种商务型网站为吸引眼球而开展的调查。这些网站利用网络简单编程的方式将问卷生成页面，用户在浏览页面的时候，对问卷进行回答，生成简单的调查结果。无论是谁都可以来参与调查，对调查对象没有甄别，自然也就没有代表性。加之很多网站在设定上，一个人可以多次参与回答，重复率没有排除。这样的调查，有时回答人数在上万或者几十万，但因为背离了调查的科学性，不仅毫无意义，甚至会误导舆情。

专业在线调查公司为了保证数据的真实性会采取抽样的方式，被抽取到的受访者会接到一封包括问卷URL地址的邮件，点击这个地址、经过各种问题的甄别才能开始回答专业问卷。而受访者的背景信息、提供数据的质量、操作流程的规范性都经过严格控制。因而专业的在线调查机构，通常不是使用随意招募的样本，而是建立和拥有自己的样本库。

在线样本一般可分为概率样本和非概率样本。概率样本库（Probability-based panels）采用随机抽样方式招募样本库成员，可以覆盖不上网人群。非概率样本库的成员则以自愿的方式在网上招募，只能覆盖上网人群。因此，这两个样本库在人口特征上存在系统差异。目前使用的在线样本库中，以非概率样本为主，概率样本库的比例很小。

在目前的中国国情下，建立概率样本库，并以此为基础开展各种不同方式的调研是实施高精度调研的有效途径。首先，概率样本库采用随机抽样方式招募样本库成员，并覆盖不上网人群，能最大限度地保证与实际人口构成的均衡性；其次，概率样本库可以用于网络调查，也可用于面访和各种特定条件的调查。为保证成本与效率的最优化，通常针对网民进行网络调查，而非网民则以面访或提供上网设施来弥补。

（二）舆情监测与大数据运用

中国网民数量已达7亿，一些重大的舆情事件，参与用户往往多达数千万。无论是发帖、转发、点赞还是阅读、搜索，都构成了舆情大数据。

尽管学界和业界对于什么是大数据尚未形成统一的定义，但综合来看，大数据通常具有4个要素，也称作4V，即海量（Volume）、快速（Velocity）、多样（Variety）和价值（Value），即数据量空前巨大，并且以非常快的速度不断产生，数据的形式多种多样，结构化数据只占很小部分，多数是半结构化和非结构化数据[2]。在这种大背景下，只有具备从海量数据中快速抓取和分析数据的能力，才能使大数据产生价值。否则，只是不断累积的数据垃圾。

网络舆情监测系统是运用数据采集和挖掘技术，对非结构化的互联网大数据进行舆情挖掘和研判的一种主要手段。一般的舆情监测系统都包含两大功能。一是信息自动采集功能，主要是通过网络页面之间的链接关系，从网上自动获取页面信息，并且随着链接不断向整个网络扩展。而新的技术突破点是关于社交媒体的信息采集和音视频信息的抓取。二是舆情分析引擎功能，涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术和音视频识别技术。

舆情分析引擎的功能是整个监测系统的核心，通常包括以下几个方面。①识别功能。热点话题、敏感话题识别。可以根据新闻出处权威度、评论数量、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用关键字布控和语义分析，识别敏感话题。②追踪功能。对主题、人物或机构的追踪和聚焦。跟踪的具体内容包括：信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素。③关注度分析功能。通过参与度和波及度等要素来考量，是衡量相关话题网络影响力的重要指标，网络关注度越高，表明其在网络中越受关注，网民参与讨论越活跃，相关话题在网站间的传播越广。④趋势分析功能。对突发事件进行跨时间、跨空间综合分析，获知事件发生的全貌并预测事件发展的趋势。⑤信息自动摘要功能。能够根据文档内容自动抽取文档摘要信息。用户无须查看全部文章内容，通过该智能摘要即可快速了解文章大意与核心内容，提高用户信息利用效率。⑥报警功能。对突发事件、涉及内容安全的敏感话题及时发现并发出危机预警。可以根据事件的危机等级，启动不同的危机公关处理方案，从而快速控制事件的发展方向。⑦统计报告功能。根据舆情分析引擎处理后的结果库生成报告，为用户提供决策支持。

近年来，舆情监测系统的功能在不断升级，专业的舆情分析方法也在不断改善，并且有各种各样的舆情分析师专业培训来不断提升舆情分析人员的技能。尽管如此，网络监测的从业者和研究人员都感受到了一种巨大压力，那就是采用网络监测的方法来研究网络舆情，特别是真实的社会舆情的局限性越来越突出，各种技术和方法的改进都难以突破这一瓶颈。究其原因，主要有以下几个方面。

1.代表性偏差

尽管我国互联网普及程度日益提高，但用户仍然只占总人口半数左右，农村人口、低收入阶层等，不上网的人比例非常大。即使有上网能力的人，也几乎不会在网络上发表自己的意见，网民中大都属于“沉默的大多数”。此外，越来越多的网络社交平台，对于来自外部的数据抓取采取种种技术手段进行限制，因此，很难采集到完整数据。同时，这些网站也为用户提供了定制化隐私设置选项，多数人会选择将个人隐私设定为非公开。这样的数据缺失进一步加大了数据的偏差值。

2.信息源头的污染

互联网时代，尽管网民享有了表达自己意见的自由，但网络信息却并非其态度、意见和情绪的直接和客观反映。首先，由于网络的虚拟性，网民的真实身份不为他人所知，网络言论往往呈现情绪化和极端化现象，较少有客观理性的分析与言论。其次，大量网络“水军”出于获利的目的，故意歪曲事实和炮制假新闻。再次是由于各种形式的网络评论员的存在。虽然有一种观点认为网络评论员在维护中国社会稳定，消除不利于政府的网络谣言，维护政府形象，促进政府与民众沟通，建设和谐社会方面能起到积极作用；但更多意见认为，组织网络评论员制造舆论压制对方，以及利用公权力来制造虚假舆论，进一步增大了网络舆情的噪声。

3.中文的“高语境”带来的分析难题

美国学者爱德华·霍尔创建了“高语境”与“低语境”概念。所谓高语境是指那些对语境依赖程度较高的语言，主要代表是中文和日文。在以“高语境”为特点的传播过程里，语言的绝大部分信息藏匿于语境之中，或高度依附于语境，很少清晰呈现于文字里，如说话拐弯抹角、含糊不清，空话、套话、官话泛滥，正话反说等现象，使基于关键词正负面评价的分析常常失效。

　　以上就是小编为大家介绍的大数据在舆情研究中的应用的全部内容，如果大家还对相关的内容感兴趣，请持续关注上海危机公关公司

　　本文标题：大数据在舆情研究中的应用　　地址：/yuqingchuli/2022/0113/2550.html

以下相关文章是否符合您的胃口