互联网文字作品传播监测模型及版权保护应用研究

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    1徐勇,2薛质,3金波,

    1文汇新民联合报业集团,2上海交通大学信息安全工程学院 ,3公安部第三研究所 上海)

    摘要:本文以对文汇新民联合报业集团承担建设的“文字作品互联网传播监测与版权保护系统”技术研究项目为依托,对项目建设中涉及到的传播监测模型建设及应用,以及版权保护的电子证据取证进行分析,阐述文字作品在互联网的传播监测及版权保护技术途径。 关键词: 文字作品 版权保护 互联网传播监测 网络证据链 1 引言 文字作品经由互联网传播时其浏览、下载、使用和修改是无法控制的。正是基于网络传播具有技术性、虚拟性、广域性和复杂性的特点,文字作品版权问题已成为数字出版产业健康和持续发展的瓶颈之一。 对于新闻文字作品而言,若发生篡改和断章取义则产生的政治与社会影响更难以估量。基于数字出版的版权保护的需要,“文字作品互联网传播监测与版权保护系统”通过技术手段,对版权进行传播监测,通过传播数据分析,结合司法实践,形成一套完整的版权保护体系,为文字作品有效传播以及版权保护探索一条可行之路。 2文字作品互联网传播特性概述 互联网的信息共享性和无边界性使得世界各地的人们能容易地接触到各种信息资源,各种“复制”行为构成了对文字作品的侵权行为。这些侵权行为表现为以下特点: 1) 高科技性。由于网络技术的交互性、易传播、通信协议开放等原因,高科技性已成网络侵权的突出特点。 2) 载体虚拟性。由于网络侵权的场所被限定于虚拟的网络空间中,并且以数字化形态存在,这些原因决定了网络侵权载体往往是虚拟及隐蔽的。 3) 广域性。互联网的全球化性质,决定了网络侵权传播的广域性,这往往导致侵权的后果难以预料、难以控制,并且难以认定其对权利人造成的巨大损害。 4) 复杂性。基于以上原因,导致了侵权主体不确定、侵权性质难以认定,并取证困难。此外,由于网络服务商提供的平台是网络侵权得以实施的载体之一,因此造成了侵权责任承担扩大化等问题,形成了网络侵权的复杂性。 文字作品在互联网的传播监测及版权保护项目跨越了新闻传播、信息通信、司法证据等多个学科体系。针对网络传播的特点,实现了对互联网传播模型的研究与仿真模拟,并完成有效传播、失真传播、恶意传播、侵权传播监测设计,本文的重点是阐述有效传播和侵权传播。首次提出网络证据链模型,并在此基础上研究网络虚实身份关联问题,为解决数字作品侵权取证维权的难题提供了重要的法理基础。同时,针对网络侵权被动取证,实现在作品版权与特征信息提取的基础上实现海量著作权库与海量异构互联网数据的高速筛选与比对,并基于核心研究成果,建成了文字作品互联网传播监测与版权保护平台。 3.文字作品网络传播模型 文字作品的互联网传播是大量用户下载共享资源的过程。这种信息的传播与传染病在人群中的流行,病毒在计算机网络上的传播有很大的相似性。因此本课题对于网络资源传播模型的研究,参照了经典传播模型的研究方法的同时,又针对网络传播的具体特点进行了模型全新设计。 3.1SIR 传染病模型 到目前为止,在关于经典传播模型中研究最为彻底、应用最为广泛的是Kermack-Mckendrick利用动力学方法建立的SIR 传染病模型,后来被用到研究病毒传染模型中,取得显著效果。其基本思想是采用“舱室”(Compartment)结构将一个地区的人群分为易感染者类(Susceptible)、已感染者类(Infective)、恢复者类(Removed)三类,该模型的状态转换过程如图4-3所示。 在SIR模型中假设传播地区的人口总数为N,病人单位时间内感染的健康者人数为Ι·λ·S/N,单位时间内病人中的恢复的人数为I·μ,μ为感染率而为恢复率。SIS模型的微分方程表示为: 由式3-1可以看到,该模型是由两个非线性常微分方程组成的,其解析解无法得到。在给定了参数和初值以后,系统的数值解可以显示健康者和病人人数随时间变化的情况。通过稳定性分析可以得到模型的阀值从而区分疾病是否会传播开来。 3.2基于互联网传播模型建设 3.2.1模型描述 在互联网中用户可以随时随地进行网页的浏览、查询,获取所需资料,多媒体文件的获取变得异常轻松。传统的Web下载方式具体主要有两种,分别是:超文本传输协议HTTP和文件传输协议FTP。 对于文字作品互联网侵权传播监测的需要,设计了一个基于文字作品版权原创和允许用户发生转借行为的【1】传播监测模型,模型的状态转换过程如图3-2所示。 文字作品互联网传播模型的详细说明如下: 1)在文字作品传播的过程中,将网络中所有的网站分为转载网站和未转载网站两大类,同时假定网站总数为常数N0。 2) 文字作品首先在网站上原创发布,随后可以被授权发布的网站转载有效传播,转载系数为δ0,因此正规发布作品的网站数目为A=1+δ0,即 I(0)=A。 3)随着作品的发布,传播就开始在网络上进行。假定单位时间内对转载网站的访问主机数为k,访问主机中可以进行转载的主机比例为S/N0,对作品进行非法转载的概率为β',并令kβ'=β0 因此单位时间从网站上转载文字作品的网站总数为β0·S/N0·I。 4)考虑到转载网站总数的不断增加,资源的热门程度会逐渐衰退,因此需要对传播速率β0做一定的修正,取,其中η用来调整传播速率与转载网站数目之间的非线性关系。 5)并非所有的网站都对文字作品的转载感兴趣,假定在传播的同时,单位时间内成为未转载网站的网站数为μ·S,显然热门作品μ较小,冷门作品μ较大。 6) 对文字作品进行转载的网站一方面可能会主动将转载作品删除,另一方面对于非法转载的作品可能会被网络监管系统发现后强制删除,假定这两种情况造成的转载网站的衰退率为α。 7) 对于文字的作品的网络传播来说,β0是一个比较关键的参数,主要由作品本身内容的热门程度和发布网站的影响力来决定,通常作品的发布网站越是有影响力,作品本身越是热门,β0就越大。 相应的微分方程组描述为:

     

    3.2.2模型仿真实验 文字作品的网络传播是一个复杂的信息扩散过程,因此需要通过仿真实验来验证模型的合理性。 针对原创新闻报道网络传播的监测,由内容的实效性和特定性,该系统采用了主动监控的方式对监控设定的网站进行监控,数据每隔一段时间更新一次。模型建设将报纸一天内所有原创作品作为一个整体来考虑,这样既能使得数据量有所提高便于问题的分析,同时又不失对传播规律分析建模的一般性。 (1) 数据验证 为验证模型的可靠性和完整性,先后采集了多组数据,利用Matlab的ode-45s微分方程组数值求解工具进行模型的仿真拟合,限于篇幅有限,本报告中展示了4组有代表性的拟合结果。图3-3是模型的仿真数据与真实数据的对比分析。其中监控系统共监测626个网站,因此N0=626,传播的趋势情况体现在参数β0和μ,具体参数的设置见表3-1。

     

    从模型拟合的结果中可看到,对于文字作品各种扩散情况,无论是转载网站数目较多还是较少(data01与data02),转载速率较快还是较平缓(data01与data04),模型都能有较高拟合度,因此该模型可以用来对文字作品的互联网传播规律和趋势进行描述和分析。 (2) 整个网络中转载网站总数的估计 主动监控方式中,监控网站数目的不同会得到不同的传播数据,本文在大量实验数据的基础上,通过所设计的模型针对每一个传播源建立传播样本,不仅能够在监控网站数目改变的情况下快速调整模型,而且能对文字作品在整个网络中的转载网站总数进行估计。 从上文的分析中可以看到:β0和μ是对某一文字作品网络传播行为特征的刻画,N0则是由监控网站数目决定的。根据均方误差最小准则,针对某一个传播源进行传播样本的匹配,匹配过后通过调整N0可以快速适应不同的监控网站数,进而对整个网络中文字作品的转载网站数目进行估计。图3-4是N0=300,626,1200,2400,100000下,模型的仿真结果。

     

    通过以上对比可以得到以下结论: 1) N0=300,626 时,真实数据与模型均有较好的匹配,表明该模型能有效的进行传播样本的匹配; 2) 随着的倍增(从600到1200再到2400),转载网站数I并没有倍增,反而增加的趋势逐渐减小,这个现象也是合理的,因为在设定监控系统的监控目录时,往往依据监控系统的能力和网站的转载倾向度,首先对转载倾向较高网站的实施监控。 3) 假定网络中可能有文字作品转载倾向的网站总数为100000,即N0=100000,就可以对整个网络中转载网站数目做出估计。 4) N0=100000时,网络中的转载网站数目为350左右,这与网络中病毒传播速度和广度是不可比拟的,这主要是因为文字作品的网络传播没有主动传播的趋势,此外作品内容的局限性和单一性也决定了有转载倾向的网站并不多。但尽管如此,网络依然有更强的传播性,如何对非法转载进行有效的遏制依然是一个严峻的课题。 4. 文字作品互联网传播应用 4.1 互联望网转载网站数的估计 主动监控方式中,监控网站目录是有限的,因此要想得到整个网络中文字作品的转载网站数目比较困难,而通过本文中的所设计的模型可以对其进行一定的估计,为更好的遏制文字作品的非法网络转载提供指导。 从上文的分析中可以看到:β0和μ是对某一文字作品网络传播行为特征的刻画,N0则是由监控网站目录决定的。因此对于某一文字作品在保持β0和μ不变的前提下,调整N0则可以对个网络中文字作品的转载网站数进行估计。图4-1是N0=300,626,1200,2400,100000下,模型的仿真结果。 通过以上对比可以得到以下结论: 5) N0=300,626 时,真实数据均与模型有较好的匹配,再次表明该模型可以用来描述文字作品的网络传播规律; 6) 随着N0的倍增,转载网站数I并没有倍增,反而增加的趋势逐渐减小,这说明在主动监控中,监控目录中的网站数目并不一定需要很多,只要能实现对转载倾向较高网站的监控,就能对文字作品的网络传播趋势做出描述。 7) 假定网络中可能有文字作品转载倾向的网站总数为100000,即N0=100000,就可以对整个网络中转载网站数做出估计。 8) N0=100000时,网络中的转载网站数为350左右,这与网络中病毒传播速度和广度是不可比拟的,这主要是因为文字作品的网络传播没有主动传播的趋势,此外作品内容的局限性和单一性也决定了有转载倾向的网站并不多。但尽管如此,与传统的传播方式相比,网络依然有更强的传播性,如何对非法转载进行有效的遏制依然是一个严峻的课题。 4.2 文字作品互联网传播模型实践作用 文字作品的互联网传播具有快速、大范围等特点,本课题以互联网信息组织特点,传播源、传播目标、传播过程等进行建模,并建立与我国主流网站相符合的仿真模拟系统,提出有针对性的数字版权管理(DRM)方案,基于此进一步分析动态数字版权管理(DDRM)中的转移树(或转借树)传播模型,根据网络用户之间的联系建立针对文字作品转借行为的数字版权传播状态机制。 在阐述数字版权保护基本概念的基础上,主要围绕权利描述、使用控制、合理使用、权利转移和可信执行等关键问题,研究基于版权原创和允许用户发生转借行为的传播监测模型,解决授权权限与应用权限的有效衔接,使得数字产品的授权应用能够得到资源提供商、生产销售商各方的有效监督,得到众多出版社、媒体单位、出版工作者以及著作权人的认可。运用该网络传播检测模型,能对一定时间段内的传播情况进行预测,进而确定使用许可时间和转借层级进行转借控制的方法以及可能产生的传播范围。 分析文字作品在互联网传播中的传播源、传播过程、传播目标等环节,建立了文字作品互联网传播模型,通过对模型的稳定性分析和仿真模拟,证明所建模型的正确性和合理性,为采取有效措施防止文字作品网络非法转载行为提供理论依据。 实现网络资源传播监测原型系统,通过实时采集数据,不仅能依据模型对资源的传播扩散趋势进行预测分析,还能对传播节点进行定位和记录。通过该监测系统,管理者能够及时掌握某个资源的传播扩散程度以及传播者的相关信息,为网络信息监管提供有效帮助。 5.被动保护与侵权监测证据链研究 51有效证据与证据链 证据是一个侵权监测案件的核心和灵魂,证据的确实、充分程度将决定一个案件的命运。随着互联网的运用,电子证据作为一种新型证据越来越占据重要的位置。我国诉讼法对电子证据的法律效力并未明确规定。联合国《电子商务示范法》第9条在确定数据电文的证明效力时,应考虑到生成、储存或者传递该数据电文的办法的可靠性,保持信息完整办法的可靠性,用以鉴别收件人的方法,以及其他任何相关因素。因此,由于计算机证据易被伪造且难以查证,其证明力较其他证据形式低,在司法实践中,仅有单一证据难以定案,往往需要其他的证据佐证其真实性,形成一个完整的证据链。 证据环是指由司法人员依法搜集的具备法定形式的证据资料的有机组合,是使证据得以发挥证明作用的证据平台。证据链是由证据环构成的案件全部事实的证据体系,是法律体系中实体法与程序法相互融合的体现。证据链的证明能力和证明力或者说证据链的生命,取决于证据环内在的客观性、合法性、关联性,证据环间以及待证事实之间的关联性。 根据《信息网络传播权保护条例》的规定,侵犯数字版权必须完成3个步骤,即将作品数字化;将数字化的作品上传至开放的网络服务器供公众点击;个人能够单方选择时间和选择地点获得作品,还可下载、储存。因此,数字版权的侵权取证、证据保全与司法鉴定也应从以上方面着手。侵权监测的证据链模型研究将针对数字化作品易复制、取证难的特点,在分析文字作品版权保护方式的基础上,研究现有侵权监测的相关法律法规,运用证据学的理论体系,建立符合法律规范的取证流程,形成电子证据的虚拟空间证据体系,提高电子证据的可采用性、合理性和合法性。 被动保护与侵权监测的过程至少应包括以下阶段:数字检材提交阶段,案情的特征与信息分析阶段,侵权网络服务协议分析阶段,固定保全侵权证据阶段,检材相似度比对阶段,侵权主体的虚拟身份信息提取阶段,与真实身份析关联性建立阶段。从证据学角度来说,证据贯彻于整个被动保护与侵权监测的各个阶段中,通过其中的证据组合,形成证据环,并进而构成完整的证据链,才能重构版权侵权案件的完全可以采信的事实。 互联网证据链模型根据网络取证的动态性特征,构建虚拟空间证据体系和物理空间证据体系,满足证据的实时性、完整性和连续性,实现有法律效力的证据的确定与获取。被动保护与侵权监测证据链模型的构建,有利于司法人员站在法律的制高点,多层次的、客观、全面、深入的审视和把握版权侵权的事实和证据,对事件予以客观、公正的评判 。 互联网证据链模型研究将能实现以下功能: (1)基于互联网特性的数据展示 (2)获取疑似侵权数字信息保全 (3)确定疑似侵权发源地及地址 (4)判断是否侵权 5.2侵权行为的协议分析 网络数字媒体侵权行为协议分析的基础是TCP/IP协议。首先是网络以太帧,经过处理成为IP数据包,进一步分析过滤得到TCP或UDP的数据包,在根据具体的应用协议对于数据包的内容进行重新的拼接,整合恢复成实际的数据。基于内容进行监控,需要获取数据包的类型、总长度,还需要获取通信相关的IP地址等信息。 侵权对象的协议分析引擎主要包括以下方面: 1)实时缓冲区分析 2)定时数据库数据分析与整理 3)应用层协议重建及分析 4)基于统计的静态数据分析 5)数据分析结果的统一表示 6)数据分析结果的共享 由于侵权主体在互联网上的体现为虚拟人,而维权活动必需针对自然人或法人实体。因此,通过信息收集与协议分析引擎提取与其身份相关的信息,包括并不限于:注册信息、IP地址、域名信息、邮件信息、电话号码、发表的文章等,从这些信息中分析侵权对象的行为与社会网络,分析其中能够反映其真实身份的证据,从而建立与真实身份的关联性。 5.3传播监测和侵权取证软件原型 数字内容本身极具易复制、易修改的特点带来了盗版与侵权使用的可能。数字版权侵权具有易实施性、取证困难大、侵权主体难以及时查明等特征,同时其侵权行为和损害后果发生在即时、侵权危害范围快速和宽泛。因此,数字作品的传播监控、证据保全、侵权司法鉴定等难题成为制约数字服务发展的瓶颈。 此外,在知识产权领域,作品发表的时间往往决定着权利人在先权利是否存在。但数字作品生成后瞬间被复制,导致了传统登记方式无法有效解决在先权利的证明,由此也导致了网络作品版权难以被法律所确认,进而造成网络作品版权纠纷侵权易、取证难,严重削弱了法律对网络作品版权的保护力度。 本项目目标在于监测文字作品互联网的传播情况,在文新集团巨量的数字著作权库的基础上,实时监测互联网上对这些作品的复制、引用、篡改、盗用等传播势态打击非法侵权行为,保护网络内容的传播安全。 侵权取证系统目标在于解决数据版权保护中证据固定保全、取证时效、证据关联分析问题。取证平台通过互联网实时接收在线委托,根据提交的数字检材,案情的特征与信息,分析侵权网络服务协议,自动固定保全侵权证据,对检材进行相似度比对,同时提取侵权主体的虚拟身份信息,建立与真实身份析关联性,形成完整的证据链,生成符合《司法鉴定程序通则》要求的鉴定报告。传播监测系统自动搜索指定的网站,当发现目标网站的作品是未授权、非法侵权作品时,从作品库中调出原作,将原作与侵权网站等信息以WEB服务的形式发给鉴定委托网关。 在线的自动鉴定委托网关接收到传播监测系统提交的侵权事件信息后,生成电子鉴定委托书,并以委托机构(文新集团、其他权利人、律师事务所或其它著作权保护机构)的证书加上数字签名,将电子鉴定委托书通过安全的形式发给鉴定中心在线受理系统。 在线受理系统验证接收到的电子鉴定委托书,校验数字签名的合法性、分析检材与侵权网站的状况是否符合取证与鉴定要求,符合后受理该委托,受理结果同样以机构数字证书签名后返回委托人。 侵权取证子系统自动分析侵权网站的注册信息、用户信息,渲染生成可视化的网站内容并截取,进行侵权证据的固定保全,协助鉴定员与检材进行内容比对,自动生成鉴定报告。鉴定报告经审核与签发,加上鉴定人、复核人与签发人及鉴定机构的数字签名,送至鉴定报告库。报告库中的鉴定报告通过报告回复系统传送给委托人。 6侵权取证系统设计与实现

    trimps-case-app.war和trimps-consign-app.war这两个web 应用采用Richfaces技术和Frame框架。

    Trimps-gateway-db.jar和trimps-case-db.jar包含所有的实体Bean和会话Bean,采用JPA实现对数据库的访问。

    Trimps-case-trustee-webservice.war负责接收电子商务网站(系统应用示范点)发过来的交易电子证据,通过调用内网的Web Service,将交易电子证据报文保存至数据库中。

    trimps-case-identity-webservice.war是开放给电子商务网站(系统应用示范点)的WebService,用来核实用户身份信息,依赖的数据来源是公安机关提供的身份认证服务。

    trimps-case-intra-webservices.war部署在内网,开放给互联网服务器使用,实现内外网之间的数据交换。

    trimps-case-jaas.sar部署在内网,作为Web应用的身份验证模块。

    trimps-mdb-case.jar部署在内网,其中的消息驱动Bean处理队列中的消息。

    系统使用mysql数据库管理软件,使用Jboss 5.0.0 GA作为应用服务器。

    内网和互联网都有数据库服务器,互联网的数据库服务器仅仅用来记录身份查询历史与集团用户信息,与应用密切相关的数据全部保存在内网数据库服务器中。

    系统功能设计、用例视图介绍:

    根据17020标准,【2】本系统将与鉴定流程有关的用户分为以下几个角色:签发人 、授权签字人、鉴定员、检材管理员和机构管理员。不同角色用户的工作组成整个鉴定流程。详情如图6-2。

     

    检材管理员负责鉴定委托及鉴定材料的管理;

     

    鉴定员负责预检工作及鉴定报告的上传与签名;

     

    授权签字人负责复核鉴定报告;

     

    签发人负责鉴定报告的签发;

     

    机构管理员负责鉴定委托的签署、鉴定协议书的签署、鉴定报告的最后签署。

     

    系统活动视图如图6-3所示。

     

    图6-3表示出了侵权鉴定的详细流程。 鉴定报告支持多种格式的文件,其初始状态为“草稿”,鉴定员一旦提交后,状态变迁为“待复核”,如果复核通过,其状态变迁为“已复核”,否则状态重新回到“草稿”。鉴定员可以对“已复核”状态的鉴定报告签字,待签字的鉴定员数量达到规定数量(本系统默认的鉴定员签字数量为两个)时,报告状态变迁为“已签名”。除“草稿”外,其它状态的鉴定报告不可再作修改。签发人作为最后审核人,对“已签名”的报告进行审核,如通过,则签发人对报告进行签名签发;否则,报告状态直接回到“草稿”,再次执行业务流程。 签名后的报告包括签名者的私钥,根据报告中的私钥即可确定签名者。 7文字作品互联网传播监测与版权保护系统实现 文字作品互联网传播监测与版权保护系统,针对网络传播的特点,进行了传播模型的研究与模拟仿真;提出并采用网络证据链模型,解决网络虚实身份关联问题,为解决数字作品侵权取证维权的难题提供了重要的法理基础,图7-1数据鉴定传输图详细说明了证据链形成的数据传输过程;在作品版权与特征信息提取的基础上实现海量著作权库与海量异构互联网数据的高速筛选与比对。是目前国内首个提供完整的文字作品互联网传播监测及取证的实用系统。

     

    文字作品在互联网传播的监控以及版权平台自运行以来,为文汇新民联合报业集团,以及文汇报、新民晚报、东方早报社等单位每日动态监控100多家主流新闻网站,通过分析比对内部25000篇文章获得被侵权嫌疑有4000余篇文章,涉及主要侵权嫌疑网站40余家。为新闻出版单位提供了量化的传播分析数据,并对版权保护提供了切实可行的维权方法和渠道。 【1】章明,施勇,薛质,文字作品互联网传播模型的研究与应用,计算机应用与软件,2012年第3期发表 【2】史栋杰,孔华锋,领域驱动设计中资源库模式设计与实现,电脑知识与技术,2010,11:9617-9618 【3】上海司法局技术规范,即时通讯记录真实性检验 【4】张文颖 徐勇,文字作品互联网传播监测与版权保护技术研究与应用,2012年中国新闻技术工作者联合会年会论文
    编辑:中国新闻技术工作者联合会

    评论 点击评论