参与用户往往多达数千万。无论是发帖、转发、点赞还是阅读、搜索,都构成了舆情大数据。
尽管学界和业界对于什么是大数据尚未形成统一的定义,但综合来看,大数据通常具有4个要素,也称作4V,即海量(Volume)、快速(Velocity)、多样(Variety)和价值(Value),即数据量空前巨大,并且以非常快的速度不断产生,数据的形式多种多样,结构化数据只占很小部分,多数是半结构化和非结构化数据[2]。在这种大背景下,只有具备从海量数据中快速抓取和分析数据的能力,才能使大数据产生价值。否则,只是不断累积的数据垃圾。
网络舆情监测系统是运用数据采集和挖掘技术,对非结构化的互联网大数据进行舆情挖掘和研判的一种主要手段。一般的舆情监测系统都包含两大功能。一是信息自动采集功能,主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。而新的技术突破点是关于社交媒体的信息采集和音视频信息的抓取。二是舆情分析引擎功能,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术和音视频识别技术。
舆情分析引擎的功能是整个监测系统的核心,通常包括以下几个方面。①识别功能。热点话题、敏感话题识别。可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。②追踪功能。对主题、人物或机构的追踪和聚焦。跟踪的具体内容包括:信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素。③关注度分析功能。通过参与度和波及度等要素来考量,是衡量相关话题网络影响力的重要指标,网络关注度越高,表明其在网络中越受关注,网民参与讨论越活跃,相关话题在网站间的传播越广。④趋势分析功能。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。⑤信息自动摘要功能。能够根据文档内容自动抽取文档摘要信息。用户无须查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。⑥报警功能。对突发事件、涉及内容安全的敏感话题及时发现并发出危机预警。可以根据事件的危机等级,启动不同的危机公关处理方案,从而快速控制事件的发展方向。⑦统计报告功能。根据舆情分析引擎处理后的结果库生成报告,为用户提供决策支持。
近年来,上海舆情监测系统的功能在不断升级,专业的舆情分析方法也在不断改善,并且有各种各样的舆情分析师专业培训来不断提升舆情分析人员的技能。尽管如此,网络监测的从业者和研究人员都感受到了一种巨大压力,那就是采用网络监测的方法来研究网络舆情,特别是真实的社会舆情的局限性越来越突出,各种技术和方法的改进都难以突破这一瓶颈。究其原因,主要有以下几个方面。
1.代表性偏差
尽管我国互联网普及程度日益提高,但用户仍然只占总人口半数左右,农村人口、低收入阶层等,不上网的人比例非常大。即使有上网能力的人,也几乎不会在网络上发表自己的意见,网民中大都属于“沉默的大多数”。此外,越来越多的网络社交平台,对于来自外部的数据抓取采取种种技术手段进行限制,因此,很难采集到完整数据。同时,这些网站也为用户提供了定制化隐私设置选项,多数人会选择将个人隐私设定为非公开。这样的数据缺失进一步加大了数据的偏差值。
2.信息源头的污染
互联网时代,尽管网民享有了表达自己意见的自由,但网络信息却并非其态度、意见和情绪的直接和客观反映。首先,由于网络的虚拟性,网民的真实身份不为他人所知,网络言论往往呈现情绪化和极端化现象,较少有客观理性的分析与言论。其次,大量网络“水军”出于获利的目的,故意歪曲事实和炮制假新闻。再次是由于各种形式的网络评论员的存在。虽然有一种观点认为网络评论员在维护中国社会稳定,消除不利于政府的网络谣言,维护政府形象,促进政府与民众沟通,建设和谐社会方面能起到积极作用;但更多意见认为,组织网络评论员制造舆论压制对方,以及利用公权力来制造虚假舆论,进一步增大了网络舆情的噪声。
3.中文的“高语境”带来的分析难题
美国学者爱德华·霍尔创建了“高语境”与“低语境”概念。所谓高语境是指那些对语境依赖程度较高的语言,主要代表是中文和日文。在以“高语境”为特点的传播过程里,语言的绝大部分信息藏匿于语境之中,或高度依附于语境,很少清晰呈现于文字里,如说话拐弯抹角、含糊不清,空话、套话、官话泛滥,正话反说等现象,使基于关键词正负面评价的分析常常失效。
以上就是小编为大家介绍的无论是发帖、转发、点赞还是阅读、搜索,都构成了舆情大数据的全部内容,如果大家还对相关的内容感兴趣,请持续关注上海危机公关公司
本文标题:无论是发帖、转发、点赞还是阅读、搜索,都构成了舆情大数据 地址:/pinpaiweihu/2022/0117/2605.html