近线存储管理在播出系统中的应用
赵凯
(中央电视台)
【摘要】 近线存储在硬盘自动播出系统中有着重要的作用,一款好的存储管理软件对于播出系统是不可或缺的,本文介绍了近线存储系统在硬盘自动播出系统中的应用,对存储管理软件的功能、迁移机制以及设备的配置等方面结合工作实践做了一些探讨。【关键词】 近线存储数据流磁带库存储管理归档回迁 在规模较大的硬盘自动播出系统中,根据音视频文件高码率、大数据量的特点,从安全、效率、经济等多方面考虑,采用分级存储管理无疑是一个合适的解决方案。近线存储介于在线存储和离线存储之间,近线存储系统采用硬盘、数据流磁带、蓝光盘等作为存储介质,其中硬盘用于存放数据检索系统,数据流磁带、蓝光盘用于存放大量的节目素材文件,它通常由存储设备和存储管理软件构成,由存储管理软件确定其在目标磁带的位置,然后控制机械手将目标磁带填入相应驱动器,启动读写操作以完成数据访问。近线存储系统兼具硬盘在线存储系统和磁带离线存储系统的优点:一方面,存储系统的数据检索部分位于硬盘,其读写速度快。另一方面,近线系统将大量近期不用的素材文件迁移到数据流磁带库中。既有离线存储系统容量大的优点,又节省在线部分的硬盘空间。近线存储系统主要存放近期不用的视音频文件,例如:超过一周的在线存储素材文件需要迁移到近线存储,因此,需要较大的存储容量,也需要提供较好的快速响应手段。视音频素材文件的显著特点是单个文件尺寸大、连续的数据读写访问、持续的占用数据传输通道,为适应视音频应用特点,在设计视音频近线存储系统时,需要采用具有较大容量的存储介质(如数据流磁带)保存大量的视音频数据,也需要采用数据吞吐能力较大的介质存取设备(如高速的磁带机)。 1 播出系统中近线存储系统的架构播出安全性的保障是每个播出系统的关键问题。硬盘自动播出系统具有通道多、存储规模大、吞吐容量大、外设品种多、稳定性要求高等自身特点,我们采用上载级、播出级、近线库分级存储的结构的分级管理方法很好的解决了大容量存储和信息吞吐问题,很大程度上提高了系统的运行稳定性同时降低了系统成本。近线存储系统中的关键设备是数据流磁带库,近线存储系统中不可或缺的还有用于存储管理的存储管理软件,通过存储管理软件使素材文件在近线存储系统与在线存储系统之间相互迁移。近线存储系统一般采用分布式归档存储管理方式,以中央电视台播出为例,浅析近线存储系统的软硬件组成结构。近线存储系统主要包括数据流磁带库、2台迁移管理服务器及其存储盘阵、7台迁移执行服务器、1台光纤交换机,使用归档管理软件进行存储迁移管理。系统硬件架构如下图所示:图1近线存储系统的硬件架构
如图所示,近线存储系统由迁移管理服务器、迁移服务器、磁带库控制服务器和数据流磁带库组成。(1)迁移管理服务器:负责制定面向应用端的数据迁移策略,统一接收和处理应用端对近线数据的访问请求,同时总体调度归档系统内的各种资源,并且将访问请求对应的数据迁移任务派发给迁移服务器,以响应各种数据操作。属于关键业务服务器,迁移管理服务器采用双机互为备份的结构,因此,需要配置一个共享的磁盘阵列用于存储迁移管理数据库的各种数据和日志文件等。(2)迁移服务器:接收迁移管理服务器派发的数据迁移任务,执行实际的数据迁移操作,并且向迁移管理服务器汇报任务执行的情况。同时,迁移服务器也是在线存储和近线存储之间的数据迁移网关,所有的数据迁移可以基于FC高速数据传输通道。可以直接利用本地磁盘空间作为数据迁移的cache。由于迁移服务器的主要工作是数据迁移,在设计迁移服务器数量时必须考虑每天的数据迁移工作量。(3)数据流磁带库控制服务器:数据流磁带库控制服务器主要负责数据流磁带库内部的磁带/插槽、磁带机和机械手的管理,执行数据流磁带库内部的磁带抓取操作,记录和管理数据流磁带库内部的各种运行和状态信息。同时接收和处理来自迁移管理服务器的各种数据流磁带库访问请求,以响应归档数据的读写操作。(4)数据流磁带库:库中所有磁带机可以共享给所有的迁移服务器,完成磁带数据的读写操作。库中所有磁带可以根据视音频系统的各种业务划分为分类的磁带存储空间,完成视音频数据的保存。该系统结构具有如下一些特点:(1)采用分布式归档存储体系结构,控制路径与数据迁移路径完全分离,系统架构灵活,伸缩性和扩展性较好;(2)支持应用级精细粒度的数据迁移策略,应用系统对数据迁移策略的控制比较灵活,更易于融入实际的系统运行环境。(3)迁移管理服务器采用双机高可用架构,保证关键业务的可靠性和可用性。(4)多个数据迁移服务器协同工作,形成天然的负载均衡和冗余备份工作方式,可靠性和可用性更高。 2 近线存储系统的管理策略大多数的存储管理软件,带有应用编程接口或者支持标准的归档控制协议,这样它们就可以与更高一级的管理软件进行通信。早期的近线存储管理系统实质上是一个“整体”,它们全部都驻留在一个系统上,通过这个系统的数据接口迁移所有文件。现在,近线存储管理系统,采用了模块化的方法:一个管理系统集中管理智能的归档任务和迁移任务,并把这些任务分派给一组负责数据迁移的服务器。这种分布式的结构允许归档管理者通过增加便宜的数据迁移服务器,以增加更多的数据带宽吞吐量。一个典型的近线系统工作过程是这样的:(1)归档(Archive):通过迁移管理服务器的API接口,迁移管理服务器收到素材管理工作站的归档请求后,向Automation发出ready的信息,并开始指派迁移服务器执行任务。Automation向迁移管理服务器发出命令获取任务执行的进程。在执行的过程中,如果迁移数据失败,迁移管理服务器将abort此条任务,同时给Automation发出ABORT的信息,当所归档的素材成功写入磁带后,迁移管理服务器即向Automation发出complete的信息。正常情况下,开始时,7台迁移服务器每台执行3条传输任务。当某条素材完全写入Cache后,迁移服务器即开始使用磁带机,将此条素材写入磁带,完成后,即清除它在Cache的纪录。在归档过程中,磁带机将不Dismount磁带,磁头将停留在最后写到的Block上,当有下一条写请求时(这个请求可来自7台迁移服务器中的任一台),磁头即从此Block位置起动,开始创建即将写入的素材的信息即文件头,然后写数据,写完数据后,再创建File Mark。创建完file Mark后,磁头将停留在最后的写到的Block上,等待下一个写操作。直到将此磁带写满。我们给迁移管理服务器设置了磁带机在未收到些请求30分钟内,不对磁带执行Dismount的操作。如此设置大大降低了磁带机对磁带的初始化操作,起到了保护磁带的作用。这种归档方式是合理的。一次性400GB的方式也能起到减少磁带机对磁带的初始化的操作。(2)回迁(Restore):通过迁移管理服务器的API接口,迁移管理服务器收到素材管理工作站的回迁请求后,向Automation发出ready的信息,并开始指派迁移服务器执行任务。Automation向迁移管理服务器发送命令获取任务执行的进程。在执行的过程中,如果迁移数据失败,迁移管理服务器将中断此条任务,并给Automation发出ABORT的信息,当所需素材成功写入视频服务器后,迁移管理服务器即向Automation发出complete的信息。正常情况下,开始时,6台磁带机执行读素材的操作,6台迁移服务器工作,待到读完某条素材后,相应的迁移服务器将开始将其迁移到指定的节点上,与此同时,第7台迁移理服务器将开始使用空闲的磁带机。由于每台迁移服务器可以同时执行3条任务,其中读写磁带的操作只有一条。于是在回迁的过程中,将会出现3条传输或2条传输1条读磁带两种情况。回迁也是使用Cache模式,即先把素材写到Cache后,在从Cache迁移到视频服务器上。如此安排获得的最大好处是:能够物理上协同定位逻辑上属于一个整体的那些特定文件。这个过程在概念上类似于“碎片整理”,以便所有相关的资产存储在一起。例如,一个视频文件中的所有数据(相关的视、音频数据及其元数据内容)可以被系统协同定位,以便所有这些信息存放在辅助存储设备上的相同位置。这极大地加速了取回的过程,因为系统现在可以以最大的效率从一个地方取回所有相关的文件。事实上,这意味着将所有相关的文件连续地存储在一个磁带上或光盘上,以便可以只装入和访问一个磁带,而不是遍历许多磁带去搜集所需要信息的不同部分。这样可以优化恢复操作,避免在无关的文档中查找分散的数据位。在实际工作中,近线存储系统应具备友好的管理界面以及全面、灵活的配置,这就对存储管理软件提出了很高的要求。一个近线存储管理软件应具有如下特点:(1)高扩展性:能够满足不断增长的客户存储需求,通过它的并行机制可以很平滑的扩大,来满足不断增长的存储容量。增加新的磁带驱动器,或者增加新的迁移服务器是非常容易的,只需在近线存储管理软件的设置界面上添加新增设备即可,不需要更改原来的设置,更不需要终止系统。(2)高可靠性:解决方案采用的每一个硬件设备都具有非常好的可靠性,配置双热插拔系统硬盘,冗余电源和网卡,从而把由每个配件故障所造成的宕机时间减少到最小,系统无单点故障。(3)高可用性:归档操作必须能够容忍存储设备的故障。设备采用N+1冗余,同时可以自动越过故障,用来达到更高的可用性需求。一台磁带驱动器或迁移服务器失效不影响整个系统,灵活利用SAN的资源分配。(4)可维护性:当需要替换或维修系统组件,比如:磁带机、硬盘和迁移服务器等,并不需要停止系统的运行。任何一个组件都可以通过图形管理界面来临时的停用它,直到它被新的组件替换完成后再被启用。(5)系统数据安全性:可以保证所有的内部数据被保护,例如配置数据和数据库内部的对象目录等。(6)负责管理迁移服务器与视频服务器,迁移服务器与磁带机的调度工作,保证资源的最大利用率,在整个Archive操作过程中,系统将不会出现因抢占磁带机资源而导致宕机的情况,也不会出现迁移服务器多次长时间等待磁带机资源的情况。(7)磁带机在完成一条写操作后,磁头将停留在磁带的“End of Data”位置,等待下一个写操作,不需要重新初始化磁带(mount/dismount),直到将此磁带写满。或者是当天的素材已经归档完成,但是磁带仍未被写满,则第二天归档时,系统将会选择这些未被写满的磁带继续写数据。磁头停留在磁带“End of Data”位置的时间可以根据系统需求设置。在等待过程中,磁带机不会损坏磁带。(8)完整地保存每一条Request的操作记录。根据这些记录,维护人员可以追踪操作过程,对系统作故障诊断,完成维护与管理工作(譬如:根据某一条操作记录,可以轻易的判定这条Request是何时,由哪台迁移服务器,哪台磁带机,和哪盘磁带来完成的)。在播出系统日常管理中,我们通过近线存储管理软件可以做到精细化管理(如图二),在管理界面上显示归档、回迁任务的详细信息,显示所有设备(迁移服务器、磁带机等)的状态,可以读取数据流磁带库的详细信息,根据素材ID查询素材文件的位置及磁带的使用信息,在管理界面中可以手动进行操作,如手动添加归档、回迁、分组、碎片整理等任务。管理软件对设备的管理越深入,我们对近线存储系统的管理就会越方便,会给系统维护带来极大便利。图2
3 合理的系统配置管理策略在近线存储系统里,迁移服务器和磁带驱动器有多种使用方案,用户可以根据系统的实际情况,选择最佳方案。我部门在实际应用中,根据每日的素材总量,迁移时间要求,各设备带宽使用情况、设备工作时间等因素综合考虑,做出的系统配置为近线存储系统总共拥有7台迁移服务器和6台磁带驱动器。根据本系统的实际情况,在方案设计中,我们选择每台迁移服务器均能共享6台磁带驱动器资源的方案。这种设计的最大好处就是无单点故障。一台磁带驱动器或迁移服务器失效不影响整个系统,灵活利用了SAN的资源分配。其次,扩展性强:增加新的磁带驱动器,或者增加新的迁移服务器是非常容易的,只需在迁移管理服务器设置界面上添加新增设备即可,不需要更改原来的设计,更不需要终止系统。7台迁移服务器共享6台磁带驱动器,所有迁移服务器的角色都是一样。Archive时,我们从任务单开始发出时描述,7台迁移服务器同时执行从视频服务器到迁移服务器 Cache的迁移,每台迁移服务器执行2条任务,前6个有完成迁移操作的迁移服务器将抢先占用6台磁带驱动器资源,第7台迁移服务器(非指迁移服务器7)将等待资源。由于前6台迁移服务器的第一批任务均为2条,所以,第7台迁移服务器必须等到其中一台迁移服务器完成2条任务后,方能得到磁带驱动器资源。等待时间约为12分钟(磁带机写2条素材的时间),但是这种情况只是在任务单刚开始发出时出现。待到第7台迁移服务器开始获得磁带机资源后,情况将是这样,第一个完成两条任务的迁移服务器又开始执行第二批任务,其它5台迁移服务器也陆续完成第一批任务并接着执行第二批任务,此时,只有第7台迁移服务器与磁带机有写操作,完成后,6台磁带机将暂时处于空闲状态,第7台迁移服务器接着执行第二批任务。如此,第7台迁移服务器相对于前6台迁移服务器将延迟约12分钟(磁带机写2条素材的时间)执行第二批任务。延迟12分钟意味着它下一次完成第一条从视频服务器到Cache的迁移也将比其它迁移服务器晚约12分钟,待到它完成第一条到Cache的迁移时,其它的迁移服务器已经完成或将近于磁带机的迁移操作而释放磁带机资源了。所以,第7台迁移服务器从执行第二批任务开始,将只需短时间(或不需要)等待资源。因此,在整个Archive操作过程中,系统将不会出现因抢占磁带机资源而导致宕机的情况,也不会出现迁移服务器多次长时间等待磁带机资源的情况。Restore时,我们也是从任务单开始发出时描述,迁移管理服务器指派6台迁移服务器使用6台磁带机,第7台迁移服务器(非指迁移服务器7)等待资源。完成第一条从磁带到迁移服务器 cache的迁移后,迁移服务器将与视频服务器建立迁移操作,同时,它将继续执行第2条从磁带到迁移服务器 Cache的迁移,完成后,建立第2条从cache 到视频服务器的迁移,随即释放磁带机资源给第7台迁移服务器。第7台迁移服务器第一次等待磁带机资源的时间约为12分钟,情况跟Archive一样,第7台迁移服务器相对于前6台迁移服务器将延迟约12分钟。因此,在整个Restore操作过程中,系统将不会出现因抢占磁带机资源而导致宕机的情况,也不会出现迁移服务器多次长时间等待磁带机资源的情况。 4 小结近线存储系统在我部门的播出实践中使用状况良好,在工作过程中我们不断总结经验,提出要求,根据需求的变化,近线存储系统经过了不同程度的升级和改进。我们充分感受到近线存储系统带来的优势,以及给播出工作带来的便利,为今后的系统建设提供了很好的设计思路和实践经验。 编辑:中国新闻技术工作者联合会
评论 点击评论