报业中心机房无人值守的实现—温州日报报业集团统一监管告警系统

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    金建明

    (温州日报报业集团)

    [摘 要] 文中详细介绍了温州日报报业集团统一监管告警系统的设计要求及技术特点, 并对实际的应用案例进行了介绍,对如何实现报业中心机房及网络的无人值守提供参考和借鉴。[关键词] 动力环境 IT运维 上网行为 短信 告警

    1 立项背景

    当今,云计算时代,良好的运行环境及必要的在线监测对企业的核心网络稳定与否至关重要,为了温报集团中心机房及网络的安全运行,除人工检查外,必须在采集各种运行设备和用户终端信息的基础上,建设统一的综合监控和告警体系,进行自动监控,实现短信、声光等报警功能。为此,温报集团于2013年升级了中心机房环境监控系统,并采购了IT运维管理系统和上网行为管理设备,来加强对集团中心机房及网络的全自动监管。并自行开发了大屏综合展示系统,将这三个纯B/S架构的监管页面在两台50寸的高清大屏电视机上统一展示,故障能直接在综合大屏上显示出来,同时短信告警,通过告警早知道、早处理,消除故障于萌芽之中,确保网络及机房的安全。

    2 设计要求

    2.1机房动力环境监控系统设计要求要能实现对温湿度、消防、UPS、精密空调、漏水、配电信息、摄像监控等信息的自动采集和故障自动告警功能。门禁管理系统能实现对人员出入权限控制及出入信息记录。机房监控采用嵌入式监控主机,平台采用B/S架构,如图1。

    图1 IT设备及动力环境系统图

    2.2 IT运维管理平台设计要求纯B/S架构,产品支持分布式部署。在一个平台里面实现网络管理、主机管理、中间件管理、数据库管理、应用管理、IP地址管理、故障管理、报表管理等,要充分体现“一体化管理”(Integrate Manager)的思想;支持实际面版图的管理。2.3上网行为管理系统设计方案能实现网址、关键字过滤;实现网页浏览和上网行为记录及查询;应用带宽优化、流量精细控制;应用识别和封堵;最大吞吐量≥4 Gbps,支持多链路捆绑,支持Bypass功能。

    3 统一监管平台各系统主要内容及特点

    3.1 APEX Integration Manager IT运维管理系统主要内容和特点APEX IT运维管理系统是一款综合网络及应用管理系统,实现了对网络设备、服务器、链路等的全面管理。可以对Web应用、应用服务器、Web服务器、数据库、网络服务等不同的业务应用和系统进行监视,整个系统具有以下的特点和功能:3.1.1拓扑自动发现 分区分层展示提供业界领先的物理拓扑结构自动发现、管理、分区域分层次展示功能(如图2)。自动刷新网络拓扑,及时反映当前网络性能、故障、运行等状况。

    2 IT运维管理系统拓扑分层展示图

    3.1.2监控丰富内容,实现多维度监控对网络设备、服务器、链路、安全设备、终端PC等进行细颗粒度地监控,支持网站、端口监视;并实现对数据库系统、WEB服务器、中间件系统、URL等各类应用进行监测。3.1.3及时精准的故障管理监测网络故障,实现告警分析,将分析结果直观的展示在拓扑图上,实现快速故障定位。通过Quick view可快速发现设备存在问题或风险高。同时提供跨多级区域、多级层次的主机快速定位。3.1.4细致的资源管理提供直观的机房、机柜、设备机架布局展示。提供子网、IP、Mac、端口、链路、Vlan等丰富的资产管理功能。IP/MAC绑定功能有效防止地址盗用或设备的违规移位。3.1.5配置管理定期备份关键网络设备的配置信息,有利于设备遭到攻击或误配置后的恢复,同时支持分布式分层结构对比。3.1.6性能管理收集网络各种资源性能指标,经智能分析后,直观地将指标信息显示在拓扑图或QuickView上,还提供实时的性能检测和分析工具。3.1.7美观详尽的报表管理记录大量的日常监测、故障、性能、分析数据,并以简洁、详尽的报表来展现。3.2 上网行为管理系统主要内容和技术特点网康NI7000上网行为管理设备是软硬一体的互联网行为管控产品。提供流量分配、用户管理、应用控制、过滤网页、审计内容和行为分析等功能。技术特点如下:3.2.1应用精细识别实现网络管控DPI+DFI行为深度识别技术,准确判别上百种P2P应用,并加以封堵、限流等精细化管控;支持对当前主流30余种IM聊天工具、QQ农场等网游、魔兽等主流网络游戏、30余种炒股软件进行判别并控制;能够识别论坛发帖行为,能对帖子敏感关键字进行过滤,并主动报警。3.2.2专业网页分类中文URL数据库高达2000万条,网页预分类技术达到国际领先水平,过滤不健康、有害内容的网页。3.2.3用终端准入来规范网络20多种用户身份识别及认证方式,确保上网人员身份合法有效,避免外来隐患。对电脑终端环境进行管理,实施终端准入规范。3.2.4合理分配带宽优化网络基于用户或应用对流量进行管理,对占用带宽大的P2P软件与在线视频等进行限速,避免占用网络过多带宽;为关键业务保留足够带宽,保障服务质量。3.2.5实时监控洞悉我们的网络实时监控上线用户的流量及使用时间等,及时发现并处理一些网络异常;对用户发布的言论信息(如聊天、邮件、论坛等)进行必要的监控,将不良信息及时过滤。3.2.6人性化管理、简单易用、安全可靠双系统引导:一个系统不能工作时,另外一个系统接替工作;支持死机自我保护、断电保护、智能硬件旁路,一旦出现上述情况将自动切换至直通状态,避免断网。3.3 动力环境监控系统万联IT设备及动力环境安全综合监控系统V3.0管控平台,处理来自各个点位的报警信息。一旦有紧急告警,系统会立即弹出告警窗口,并及时发送短信通知当值人员。如果管理员没有及时发现弹窗或手机上的告警信息,告警报警将会进一步升级,直接触发大楼消控室等多点位声光报警。万联动力环境监控具有以下特点:· 监控系统基于B/S架构,可通过IE浏览器方便实现远程监控(如图3);· 实现语音、短信、声光、电话等多种报警方式,满足用户多种报警要求。· 系统采用以太网TCP/IP协议,组网方式灵活,无需再建专网就能实现三级联网监控和管理;· 可以通过电脑进行运程维护:初始配置、更改参数等,提高运行效率,节约人力成本;· 监控系统稳定性强、安全性高,操作系统采用嵌入式,软件在硬件里固化,不会受病毒、黑客攻击,身份验证采用SSL体系安全认证,实行用户权限管理;· 软件基于XML语言体系,不仅能采集温湿度模拟量、开关的开关量等,还可集成标准协议设备如精密空调、消防控制等,实现集成一体化;· 系统具开放式API开发接口,便于IT运维管理等系统的接入。

    3 IT设备及动力环境各种实时数据显示

    4 实现功能

    4.1平台在大屏上实现统一监管三个监控系统都是B/S架构、通过自主开发,将这三个纯B/S架构的监控页面纳入到统一监控平台(如图4),并在两台50寸的高清大屏电视机上统一展示,一有故障就能直接在综合大屏上显示出来,这样管理员就能一目了然,早知道、早处理,消除故障于萌芽之中,确保网络及机房的安全。

    图4 统一监控及报警平台

    4.2机房动力环境监控全智能、多方位,实现了“无人值守”的目标万联环境监控系统在“无人值守”情况下对机房的强电等各种开关量、温湿度等各种模拟量、精密空调等各种智能设备的参数进行取值,一旦发面数据有异常,能快速通过短信、声光等多种方式告警,促使管理员及时进行处置,实现中心机房的“无人值守”。该系统已在我们以往的管理中发挥较好的作用,曾多次告警UPS房温度超限和主机房窗口浸水(如图5),我们都及时有效地进行了处理。

    图 5 短信告警

    4.3IT运维管理系统实现集团城域网的无人值守整个城域网的网络设备、中心机房的重要服务器、集团各重要应用系统全部纳入IT运维管理系统,通过对各设备参数阀值的精确设置,一旦在发生故障,管理员将在第一时间收到告警信息,并在统一监控平台上快速定位和处理。如图5就是楼层交换机宕机后第一时间发出的短信告警,这样管理员能在“秒级”的时间内发现楼层交换机异常,快速进行处置。4.4各监控系统高可控性、高可靠性IT运维管理系统提供了基于端口、线路、IP、MAC等等的全方位监控,各网络设备、网络流量、应用服务器等各种指标一目了然,通过各参数阀值的设置,各系统故障和告警等一切都在掌控之中。上网行为系统则是在真实的组织架构体系下,通过MAC地址、vlan、ip地址等识别,确保被审计使用主体的真实性、准确性;方便实现基于人、IP主机、MAC主机、某个应用、某个协议等的监控、管理、优化。动力环境监控系统采用两外套互相独立环境监控系统报警系统,能各自进行信号的采集、管理、告警。同时工作、互为备份,实现了高可靠性,确保中心机房高效、安全运行。

    5 应用实例

    5.1应用IT运维管理系统和上网行为设备迅速判断并排除了一起重大网络异常事件。2014年3月25日,我们收到短信告警:部分线路流量异常、集团出口时断时续。我们在IT运维拓扑图上发现商报下联的一条线路以及商报到核心8810的线路压力变红(见图6)。

    图6 故障在IT运维拓扑图上显示

    结合上网行为上的流量排名,初步判断是商报汇聚下联的一服务器中毒,发出巨量的网络攻击流量。随后通过IT运维管理系统对中毒的服务器进行定位,对该服务器进行下线处理,故障得以解,整个恢复正常。可以想象,如果没有综合信息监控报警平台,在出现网络攻击的时候,逐个交换机、逐个端口、逐个线路进行查询,所耗的时间肯定会很长,可以说统一监管平台的功能达到了我们预期的目标。5.2通过环境监控系统,排除了一起因暴雨造成的漏水事件。在2014年5月份,有一次连续的下暴雨,环境监控系统通过短信发出漏水告警,我们通过检查窗边漏水感应线的位置,发现地上有少量积水,这是由于新增空调的压缩机在5楼顶,连续强降雨,雨水顺着铜管的保温泡沫渗漏到机房里面来造成的。我们进行了应急处理,雨停之后,通知空调厂家过来整改铜管走线。要是没有短信告警,我们平时也不太可能经常打开防静电地板查看,有可能不会及时发现漏水事件。

    6 总结

    建设了统一监管告警系统之后,集团的中心机房和城域网管理基本上实现了“无人值守”,具备了远程监控、处理故障的能力,以前是7×24小时值班,现在可以实行7×8小时值班,节省了大量的人力成本。自这个平台启用以来,整个集团局域网的安全保障系统明显得到提升,经过一段时间的磨合,各管理员分工明确、各司其责、互为合作。按不同的告警类型,快速在监控系统定位并加以解决,大大提高了故障处理速度,尽可能避免因故障对报社采编和网站等核心业务造成的影响。统一监控平台,对各监控数据进行分析、找出可能存在的安全隐患,及时进行干预,消灭一些故障于萌芽之中。使整个集团的IT设备运行的更加安全、稳定、可靠。 编辑:中国新闻技术工作者联合会

    评论 点击评论