基于网络舆情处理中几个协同问题的思考

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    许良奇

    摘要:网络舆情的价值程度取决于机器对数据的量化计算和人对数据质化分析的协同程度。本文基于互联网大数据和可预见世界数据流,通过“殊途同归”、“沙里淘金”和“化繁为简”的方法,探讨了网络舆情处理协同效应最大化的可能性。 
    关键词:大数据 协同处理 网络舆情

    伴随着基础电信和传播媒介技术的飞跃发展,信息创造、获取和传递的便利化和低廉化已成为可能。互联网在方便生活,展示自我、改变世界的同时,其海量的碎片信息,以“无组织的组织”形式对现实社会产生的影响程度“远远超过技术决定论所涵盖的内容”。互联网每日所创造的大数据不仅成为社会发展的重要资源,而且也成为网络舆情的一个重要来源。 所谓的大数据一般以“海量性(high-volume)”、“快速性(high-velocity)”、“多样性(high-variety)”、“价值低密度性(low-value)”为基本特征。“海量性”是因为数据规模已从TB级跃升到ZB级;“快速性”是数据高频交易的状态,“多样性”是指数据类型多种多样;“价值低密度性”是指单位时间里有价值信息不多。四个“V”特征的核心是价值。数据价值的大与小一般取决于使用者的价值取向,然而在不同的时间、空间及其语境下,“价值”会有着不尽相同的解释。 网络数据是指来自网络空间的数据。网络空间一般由公网(广域网)和暗网(局域网)组成。公网数据亦称互联网数据即公开来源(URL)可获取并索引的数据,暗网数据是无源(URL),在无协议条件下无法获取和索引的数据。根据计算机科学家的研究:互联网的数据只占网络空间数据的1%,其余的99%都是暗网数据。从某种意义上讲,互联网涌现的大数据是现实社会的镜像。因此基于网络大数据的网络舆情就成为社会治理决策制定科学化程度的一个重要参数。要让大数据成为支持经济社会治理科学化的重要参数,首先要建立完整获取和有效处理大数据的计算机系统。毋庸置疑,能够处理互联网大数据的一定是庞大、复杂的仿真系统;能够在大数据中发现网络舆情的一定是人,而能够从大数据及时发现和准确判断网络舆情的一定是基于机器与人相互牵引的协同方式。基于大数据的特征和网络舆情研判的要求,“殊途同归”、“沙里淘金”和“化繁为简”可以作为机器与人协同处理的路径。这是一个理想的路径,但也是协同的难题。
    一、难题 这些难题是:1、各种类型数据能否 “殊途同归”,2、数据计算能否辅助“沙里淘金”,3、网络舆情处理能否“化繁为简”。 (一)“殊途同归” 基于应用的视角,网络数据一般可从“时间、空间和事件”三个方向进行分析处理。互 联网空间当下日产数据量最多的当属社交媒体,而微博又位居社交媒体的榜首。汇聚互联网80%以上数据的微博客已变成虚拟空间的一大信息集散地。随着发展和应用偏好惯性,互联网各种各样数据涌向一个空间存在着很大的可能性。网络数据会沿着“时间线”集聚和扩散。热点数据完全可以在一个空间,通过时间纬度去查询、分析和推测。怎样使大数据“殊途同归”呢? (二)“沙里淘金” 作为以网络舆情为分析方向的网络信息处理系统,其获取和处理的数据主要来自互联网。互联网的数据量即使只占暗网的1%,但比较传统媒介,其数据规模仍是巨大无比。美国国会图书馆积累300年的数据只有650TB,而社交媒体推特日产数据就达12TB;谷歌的MapReduce日处理数据20PB(即20480 TB或20971520GB),一年数据达7.1ZB。互联网数据规模如同沙漠,能从大数据中淘出各领域的向度信息可谓是沙漠之金。网络舆情应该是在大数据中挖掘出的高向度数据群中“金子数据”,而唯有“金子数据”才有可能成为影响决策的网络舆情的素材。如何在大数据中“沙里淘金”呢? (三)“化繁为简” 处理网络大数据的瓶颈不在于其类型的多样性,而在于发现实时数据的内涵。所谓的“实时数据”指在某事发生、发展过程中同一时间响应或反馈的信息。尽管控制论(Cybernetics)鼻祖诺伯特·维纳(Norbert Wiener1894-1964)认为:计算机是一个进行信息处理和信息转换的系统,只要这个系统能得到数据,机器本身就应该能做几乎任何事情。计算机具有在瞬间发现大数据交易向度规律的优势,是因为计算技术是基于定量研究为主要方法的精密科学(自然科学)。计算机可以对线性或非线性数据交易行为——“物理变化”做出快速精准的识别。但要从这些数据实体中抽取出所承载的内涵,比如人的所思所想或思想火花的“化学变化”,计算机就无能为力了。因为基于思想数据的质化评价是描述性科学(社会科学)的研究方向。据此可认为:计算机优势于表层结构数据规律性的计算,人优势于深层结构数据倾向性的评价。向度思想的描述和评价必然涉及到语言和文化。应该说即使是同种语言在不同语境下,其语义会是千差万别。若把人的知识融合力、文化洞察力,即把人对数据辨析的优势交由计算机去处理,就会把人本可以简单处理的问题繁琐化和复杂化了。对于网络舆情,既要对数据量化计算又要对数据质化评价,如何去“化繁为简”呢? 
    二、协同 (一)“殊途同归”的协同 类型和格式的多样化是互联网数据的基本特点。赫尔曼?哈肯认为:协同学中的集体行为,是人们视线未取得过任何共识,但最终却采取了一致的集体行为,即所谓“未谋合的共谋”。因此互联网数据的“不谋而合”处理的第一步是建立能集合多个数据库的异构数据库系统,实现数据共享和透明访问的目标。第二步是建立所谓的数据“序”。序参量(Order parameter)是协同学的核心概念。它是指在系统演化过程中从无到有地变化,影响着系统各要素由一种相变状态转化为另一种相变状态的集体协同行为,并能指示出新结构形成的参量。互联网数据哪些元素可以视作“序”。无论线性或非线性的互联网数据均隐含着上百种元数据项,但时间是基本项。因此时间项可作为序参量的关键元素。在建立数据仓库时可把时间项视作最有可能协同的元素。搜索引擎一般都提供综合性信息查询服务。尽管数据规模、类别或格式有很大不同,但搜索引擎都是以时间“序”来响应查询的请求。因此,基于时间“序”,让碎片化的互联网数据“殊途同归”并形成数据协同链就存在了可能性。 (二)“沙里淘金”的协同
    时间“序”可让碎片数据 “不谋而合”,其余各式各样的数据项可归入“参量”范畴进行处理。“数据”如同是大系统,“参量”如其子系统。子系统与子系统的协同力影响着大系统的效力。参量与参量之间的权重竞争与合作影响着数据的向度,规模参量的聚合影响着数据协同的宏观局面。不同的元数据项可比作为一个个“参量”,每个“参量”在数据中存在着不同的权重,而不同的权重可建构不同纬度的算法;不同的算法又可依据不同的取向计算出不同向量数据。按贝叶斯决策理论所形成的各种统计模型及算法,如:
     
     
    计算机就可实时计算出互联网大数据中的概率值,即所谓的热度数据。如针对微博客数据特点,可将一个个概率高的元数据赋予一定权值,建立不同时间、空间或领域的权重算法,如:
     
     
    其中Hs为实时微博热度;Hs-1为上次计算的热度;Ts为本次采集时间;Ts-1上次采集时间;T0为本条微博的发布时间;Qt为在时间Ts~Ts-1之间第t个转发节点(通常是一个用户)的社交权重。该公式的始热度值H0,它表明微博第一次被系统抓取到时的热度。初始热度值可以从前文的社交权重替换中得到。这个算法得出的结果,可再进行相关性聚合,进而得到高权重或高概率的向度数据。无论是网络舆情还是其他专业情报,有关数据都有生命周期的特征。因此,网络舆情可按数据“生命周期”,建立从“参量数据”权重计算到“向度数据”聚合计算的“沙里淘金”协同计算链:参量数据计算——变量概率数据计算——不同概率数据计算——高概率数据聚合计算——新参量数据融合计算,直至接近现实社会舆论的聚合点。据此可认为:“沙里淘金”协同计算对于获取大数据中的高向度热点数据是存在可能性的,但是热点数据并不等于是网络舆情。 (三)“化繁为简”的协同 美国乔治亚大学乔纳森?斯特里克兰认为:计算机可以比人类更快地分析和解决问题,但它不具备人类学习和模式识别能力。尽管计算机识别技术上有所进步,但它是很肤浅的。乔纳森从一个侧面厘定了机器和人的能力范畴:前者善于数据分类处理,后者善于数据内涵处理。赫尔曼?哈肯认为:“大自然是一个高度复杂的协同系统。而大系统内的小系统,都是通过专门化而存在于大系统之中。子系统的专门化并创造自己的生态小系统”网络舆情——全面、及时、准确互联网空间的向度信息,就是一个极为复杂且庞大协同系统运行的结果。大系统内的“自然科学”和“人文科学”两个小系统之间存在着错综复杂的依存关系。单靠机器或人的智能都无法满足“网络舆情”全面、及时和准确的要求。因此网络舆情处理需要机器与人的协同分工:前者侧重于数据获取、数据加工,后者注重于数据识别,内涵发掘。计算机的能力测量指标:基于数据获取的完整性、及时性、稳定性;基于数据分类聚类和检索的精准性、快速性、形式性。人的能力测量指标:基于对计算机运算结果数据的关联、推理、理解的准确性、全面性、深刻性。数据采集、存储、计算、分析、报告等可比作计算机系统内部协同的各个应用环节,各环节在不同阶段共享同一数据资源来触发整体效应。人对计算机结果数据的分析判断可比作系统的外部协同,人的知识、辨析共享着计算机运算结果来揭示数据实质。计算机可对大数据实现计算力的最大化,人可对计算结果数据实现思辨力的最大化。计算机侧重表层数据观察、获取和计算,人侧重深层数据质化评价。两者在分工、互动、共享应用行为和特定资源的同时,必然会产生1+1>2协同效应,机器和人优势互补,网络舆情处理“化繁为简”就有了可行性。这里“繁”与“简”可以是机器与人协同的临界点或协同的触发点。 三、结语 “和谐共振”是机器与人之间的协同境界。耶鲁大学计算机科学教授大卫?格勒恩特认为:现行的以空间为基础的网络将会被以时间为基础的“世界数据流”(World stream)所代替。信息则将通过“世界数据流”不断且稳定地流向过去的时间点[1]。美国的推特、脸谱、中国微博的数据流已展现了这一概念的雏形。这些平台在互联网空间能产生如此吸引力的主要原因:一可获取几乎万维网上的所有信息(See the values from the world data- streams via one media);二可依据偏好对信息进行加工、展示和互动。一个平台汇聚“世界数据流”的概念和应用,无疑为“化繁为简”处理“网络舆情”提供了很大的可能性。 但即便到了“世界数据流”时代,利用好大数据还得依赖计算机去获取数据、命名实体、识别聚成,还得依靠人去对结果数据去甄别和评价,还得需要计算机与人两个子系统的各个部件按一定关系进行聚合和协同。然而,基于协同效应的原理,网络数据处理系统的设计就不必偏向庞大复杂的架构,只需聚焦于数据获取和量化计算的效能;而人可以专注于量化分析数据的质化评价,不必担忧因观察的局限性可能导致判断片面性的发生。简言之,“殊途同归”、“沙里淘金”、“化繁为简”的协同可能是基于互联网大数据,实现网络舆情处理协同效应最大化的一种方法。
    参考文献:
    1. 凯文·布德罗《大数据解决大问题》2013.1.28 http://www.hbrchina.org/2013-01-28/112467255.html
    2. 魏华等《基于Oracle 10g实现多元空间数据管理》《物探化探计算技术》 2007年04期
    3. 靳景玉等《基于协同理论的城市联盟动力机制》《系统工程》2006年第10期
    4. 迈亚?帕尔默《大数据初创企业的福音》英国《金融时报》2013年2月13日http://www.ftchinese.com/story/001048763
    5. ITeye网:Google每天处理的数据量已超20PB http://www.iteye.com/news/800
    6. 李盛明《大数据战争:即将到来的全球数据革命》光明网 2013.1.22 http://zgbx.people.com.cn/BIG5/n/2013/0122/c347569-20282481.html
    7. Netis《奔流》:沙里淘金 拥抱大数据 2013.2 http://www.netis.com.cn/flows/2013/02/big_data/
    8. Facebook:如何管理10亿用户的数据?2013.1.28 http://www.199it.com/archives/92765.html
    9. 白宫科技政策办公室《大数据研究和发展计划》2012年3月29日(“Big Data Across the Federal Government” by Executive Office of the President March 29, 2012)
    10. 中国社会科学院《美国以国家战略应对大数据时代》2013年1月19日http://roll.sohu.com/20130119/n363981822.shtml
    11. Michal Kosinski(Operations Director, Cambridge University Psychometrics Centre):“With big data comes big responsibility”(大数据,大责任) 2013.3.14 http://www.ft.com
    12. 刘润生《大数据对政府的大影响》学习时报2012-11-26 第7版http://www.studytimes.com.cn:9999/epaper/xxsb/html/2012/11/26/07/07_40.htm
    13. 悲成发《基于协同学的信息运动生态协同演进研究》 《情报理论与实践》2010年第8期
    14. 搜搜百科:协同论http://baike.soso.com/v180354.htm?ch=ch.bk.innerlink
    15. 维基百科:复杂系统的特性http://zh.wikipedia.org/wiki/%E5%A4%8D%E6%9D%82%E7%B3%BB%E7%BB%9F
    16. 加里?马库斯《人脑能“复制”吗?》英国《金融时报》2013年2月7日http://www.ftchinese.com/story/001048874
    17. 周云波《数据分析工具建设不可或缓》学习时报2012-12-17 第7版http://www.studytimes.com.cn:9999/epaper/xxsb/html/2012/12/17/07/07_39.htm
    18. Albert Tan《搜索引擎网页去重算法分析》2013.2.23 http://www.admin5.com/article/20130223/489088.shtml
    19. 任天佑《当代军事转型中思维向度的调整》学习时报 2013-02-25 第7版
    20. 卡斯·桑斯坦《网络共和国:网络社会中的民主问题》黄维明译 上海人民出版社 2003版
    21. Sysomos:Social Media Monitoring-“Hot Social Media Tips for 2013”http://www.sysomos.com/campaign/tip12/tips.html?campaigntype=homepage&adtype=12
    22. Juro Osawa: How Internet, Social Media Can Change China(《网络社交媒体如何改变中国》2013.2.21)华尔街日报http://cn.wsj.com/gb/20130221/bog082527.asp?source=whatnews
    23. 腾讯科技《2013年社交媒体六大趋势》2012.11.30 http://tech.qq.com/a/20121130/000126.htm
    赵磊等《世界变迁中的软实力建设》学习时报 2013-02-25 第2版
    编辑:中国新闻技术工作者联合会

    评论 点击评论