文字作品互联网传播监测与版权保护技术研究与应用
张文颖 徐 勇(上海文汇新民联合报业集团) [摘 要] 本文介绍了文字作品互联网传播监测以及版权保护技术的研究。文章对文汇新民联合报业集团建设的文字作品互联网传播监测与版权保护系统的建设,以及涉及到的核心技术研究和应用发展进行分析,阐述通过技术手段为数字出版产业健康和持续发展保驾的作用。[关键词] 文字作品 版权保护 传播监测 证据链 1 引言随着互联网技术及数字出版的发展,文字作品经由网络途径产生侵权的形式呈现多样化、复杂化特点。电子出版物中的侵权,特别是对于平面媒体中除授权转载外,对新闻文字作品的篡改和断章取义会产生重大的问题,无论是恶意或无意的篡改与断章取义均会造成十分恶劣的政治与社会影响。因此,文字作品互联网传播监测与版权保护是信息安全领域的一个亟待解决的重要课题。文汇新民联合报业集团从现有互联网版权保护的角度为电子出版物、著作权人以及相关机构提供完善的技术保护体系,通过技术手段,进行版权的被动保护,形成必要的监管和维权机制,为著作权利人提供维权渠道和帮助,打击互联网侵权行为,作为数字出版产业链中重要的组成部分,为数字出版产业健康和持续的发展保驾护航。。通过技术手段,包括信息采集、信息筛选、信息比对、信息鉴定、后台管理、前台发布、电子证据取证、用户交互等管理等功能,为企事业单位、个人提供文字作品互联网传播监测和版权保护服务。 2 文字作品互联网传播背景与版权忧虑随着互联网发展到移动互联、用户群及接入节点的迅速增长,这几年我国数字出版产业呈现高速发展态势。有预测数据指出:2020年,我国网络出版的销售额将占到出版产业的50%;到2030年,90%的图书有可能出网络版本。我国国家政策为版权产业发展提供了有力支撑。《国家“十二五”时期文化改革发展规划纲要》明确指出:“建设涵盖文学艺术、广播影视、新闻出版等领域的版权公共服务平台和版权交易平台……加强版权行政执法和司法保护的有效衔接,严厉打击各类侵权盗版行为,增强全社会的版权保护意识。发展版权相关产业”。文字作品的传统侵权行为主要以原创作品的剽窃、盗版为主,并且需要一定的侵权成本。但是互联网的无边界性却使得世界各地的人们能轻易的接触到各种信息资源,各种“复制”行为构成了对文字作品的侵权行为。这些侵权行为表现为以下特点:1.科技性。由于网络技术的交互性、易传播、通信协议开放等原因,高科技性已成网络侵权的突出特点。2.体虚拟性。由于网络侵权的场所被限定于虚拟的网络空间中,并且以数字化形态存在,这些原因决定了网络侵权载体往往是虚拟及隐蔽的。3.广域性。互联网的全球化性质,决定了网络侵权传播的广域性,这往往导致侵权的后果难以预料、难以控制,并且难以认定其对权利人造成的巨大损害。4.复杂性。基于以上原因,导致了侵权主体不确定、侵权性质难以认定,以及取证困难。此外,由于网络服务商提供的技术平台是网络侵权得以实施的载体之一,因此造成了侵权责任承担扩大化等等问题,形成了网络侵权的复杂性。 3 文字作品互联网传播监测关键技术研究3.1 网络传播监测模型研究网络传播监测模型是基于互联网的信息组织特点,从传播源、传播目标、传播过程等等建立的模型。它主要围绕权利描述、使用控制、合理使用、权利转移和可信执行等关键问题,研究基于版权原创和是否允许用户发生转借行为。该模型的特点是通过去除传播过程中的噪声,得出自动化智能识别有效传播、失真传播、恶意传播、侵权传播等的传播监测算法。运用该网络传播检测模型,能够对一定时间段内的传播情况进行预测,进而确定使用许可时间和转借层级进行转借控制的方法以及可能产生的传播范围。3.2 被动保护与侵权监测证据链模型研究证据是一个侵权监测案件的核心和灵魂,随着计算机的普及运用,电子证据作为一种新型证据也占据越来越重要的位置。由于计算机证据易被伪造且难以查证,其证明力较其他证据形式低,在司法实践中,仅有单一证据难以定案,往往需要其他的证据佐证其真实性,才能形成一个完整的证据链。侵权监测的证据链模型研究针对数字作品容易复制且难取证的特点,在分析文字作品版权保护方式的基础上,建立符合法律规范的取证流程,形成电子证据的虚拟网络空间证据体系,提高了电子证据的可采用性、合理性和合法性。被动保护与侵权监测的过程包括以下阶段:数字检材提交阶段,案情的特征与信息分析阶段,侵权网络服务协议分析阶段,固定保全侵权证据阶段,检材相似度比对阶段,侵权主体的虚拟身份信息提取阶段,与真实身份关联性建立阶段。被动保护与侵权监测证据链模型研究实现了以下功能:1.基于互联网特性的数据展示2.获取疑似侵权数字信息保全3.确定疑似侵权发源地及地址4.判断是否侵权3.3 海量作品高速筛选与比对技术研究由于文字资源种类繁多、形式各异,所以在本项目研究了海量异构数据的存储、检索、比对等技术,该技术主要由三个步骤组成。3.3.1 信息采集通过多机并行采集、分布式采集等技术,利用动态更新网站的高效更新深度采集技术、网页内容解析技术,去除广告、版权信息等垃圾信息,获取网页正文内容,为信息比对和版权分析提供可靠的判断基础。3.3.2 快速筛选首先为海量异构数据建立统一的存储和索引,对众多格式的文字资源进行管理,实现全文检索。通过作品著作权的特征表示模型,利用高效的计算文本相似性的方法,以适应海量数据的计算需求,从而自海量的采集数据中迅速发现涉嫌侵权的作品。3.3.3 精确文字内容比对将通过快速筛选的作品与著作权库中的相关作品进行精确文字内容比对,识别出侵权的内容、侵权内容的比例等事实。为加快文字内容比对的性能,采用了两种层次的查重技术:粗查重和细查重。这两层查重分别对应不同的文档指纹抽取技术和相似度计算技术。粗查重技术的应用领域主要是稿件查重。细查重为每篇文档生成一组指纹特征,计算两篇文档之间的指纹的相似程度,可以用来检索相似文档。3.4 传播监测和侵权取证软件原型传播监测系统自动搜索指定的网站,当发现目标网站的作品属于未授权、非法发布的侵权作品时,从作品库中调出原作,将原作与侵权网站等信息以WEB服务的形式发给鉴定委托网关。鉴定委托网关部署在文新集团,为在线鉴定的自动委托代理系统。网关在接收到传播监测系统提交的侵权事件信息后,生成电子鉴定委托书,并以委托机构(文新集团、其他权利人、律师事务所或其它著作权保护机构)的证书加上数字签名。鉴定委托网关将电子鉴定委托书通过安全的形式发给鉴定中心在线受理系统。在线受理系统验证接收到的电子鉴定委托书,校验数字签名的合法性、分析检材与侵权网站的状况是否符合取证与鉴定要求,在符合时,受理该委托,受理结果同样以机构数字证书签名后返回委托人。侵权取证子系统自动分析侵权网站的注册信息、用户信息,渲染生成可视化的网站内容并截取,进行侵权证据的固定保全,协助鉴定员与检材进行内容比对,自动生成鉴定报告。鉴定报告经审核与签发,加上鉴定人、复核人与签发人及鉴定机构的数字签名,送至鉴定报告库。报告库中的鉴定报告通过报告回复系统传送给委托人。 4 系统整体技术架构本系统通过各核心技术的研究应用,最终形成了完整的传播监测及版权保护系统,本系统总体框架采用SOA架构,SOA是一种面向企业级服务的系统架构,在基于SOA架构中,具体应用程序的功能是由一些松耦合并且具有统一接口定义方式的组件(也就是service)组合构建起来的。SOA提供的业务灵活性,能对业务变更快速和有效地进行响应、并且业务的不断变更和扩充能提高企业的竞争优势。利用基于SOA的系统构建我们用已经封装好的功能模块组建我们所需要的程序或者子系统,而这些功能模块就是SOA架构中的不同的服务(services)。其技术架构见图1。1.接口层:提供标准的WEBSERVICE数据接口,方便与其它系统对接。系统二次开发接口,系统方法均定义为接口模式,用户可以很方便的扩展。 2.数据层:数据层采集TRS SERVER及MSSQL SERVER做为存储数据库,存储的数据有著作权库,文字作品,互联网网页数据等。3.撑层:分布式多机采集终端,快速信息筛选精确比对,电子数据司法鉴定侵权取证电子报告,用户及权限管理,系统其它功能等。4.用层:传播查看,侵权分析,电子报告,信息共享等。5.门户层:可将本系统接入文新集团内网、外网等门户,向这些系统提供服务。6.用户层:用户可通过文新集团内网、外网等形式方便的查看与自己相关的作品的传播情况。 5实践成果及应用该项目的实施,针对网络传播的特点,进行了传播模型的研究与模拟仿真;提出并采用网络证据链模型,解决网络虚实身份关联问题,为解决数字作品侵权取证维权的难题提供了重要的法理基础,图2数据鉴定传输图详细说明了证据链形成的数据传输过程;在作品版权与特征信息提取的基础上实现海量著作权库与海量异构互联网数据的高速筛选与比对。是目前国内首个提供完整的文字作品互联网传播监测及取证的实用系统。目前该应用系统在本集团运行,每日动态监控100多家主流新闻网站,通过分析比对内部20000篇文章获得被侵权嫌疑有2000余篇文章,涉及主要侵权嫌疑网站40余家。这些运行成果为新闻出版单位提供了量化的传播分析数据,并对版权保护提供了切实可行的维权方法和渠道。 6结束语在互联网技术发展日新月异之际,并随着国家“十二五”时期文化改革的深入,版权公共服务平台及版权交易平台会得到深层次发展。本项目的研究内容及成果,将成为这两个平台的重要核心内容。
编辑:中国新闻技术工作者联合会
评论 点击评论