投稿到民航资源网

智慧民航案例展示:浦东机场信息系统智能化运控平台的建设与应用

 2020-01-09 10:52:33 来源:民航资源网  [投稿排行榜]

智慧民航案例展示:浦东机场信息系统智能化运控平台的建设与应用

      为了深化民航智慧化建设,民航资源网启动“2019智慧民航优秀解决方案暨应用案例”征集及评选活动,寻找创新践行企业分享先进经验。目前已经收到了来自航空公司、机场、技术供应商投递的大量案例,民航资源网将陆续展示分享。

      《上海浦东国际机场信息系统智能化运控平台的建设与应用》

      ——上海国际机场股份有限公司

      一、信息系统的智能化运控平台建设背景

      上海浦东国际机场于1999年建成通航,发展至2019年已拥有两个航站楼、两座卫星厅,旅客年吞吐量约7千万人次。浦东机场新的枢纽战略周期从“扩大规模”为主转变为“打造品质”为主,上海国际机场股份有限公司(简称“公司”)作为大型复合国际枢纽的管理者和机场综合服务的整合者,业务拓展将主要围绕建设大型国际航空枢纽、提高运行效率、提升服务能级、推进管理改革等中心工作展开。随着浦东机场枢纽建设稳步推进,公司对安全服务、运营效率、内部管理等各方面要求不断提升。

      机电信息保障部隶属于上海国际机场股份有限公司,是一家信息技术保障单位,其下系统运行中心主要负责包括离港、网络、航显、集成、门禁、监控、广播等30多套信息系统的运维、管理工作,业务范围包括前端设备维护、网络设备及服务器等。如何确保系统、设备的高效运行是系统日常运维、管理的重中之重,实际工作中也遇到了亟待解决的难点问题。

      1、系统多,监控手段不统一

      业务系统各自独立,管理工具分散,缺乏集中监控,给现场运维带来一定的困扰:

      (1)各自系统都配备独立的监控工具,分别安装在业务系统终端上,较大量的监控终端导致资源浪费,同时也受到安装空间的限制。

      (2)按照信息安全的要求,监控终端的操作系统和业务软件均需要部署复杂密码,且需定期更新,运维人员需要熟记大量账户、密码。

      (3)各系统的监控界面直观性可视化差,运维人员需要进行二次理解。

      2、监控未实现自动化,人工巡检工作量大

      各系统前端设备及网络设备遍布机场各个角落,300多台重要服务器主要分布在两个航站楼和各大主机房,数量大、点位散,并且随着卫星厅建成投运和新信息系统的增设,各类设备不断递增中。而多数系统监控工具没有自动告警机制,无法实时发出异常告警,需要人工巡检发现问题。

      对网络设备和服务器的巡检,系统运行中心技术人员需要登录到交换机或者服务器上查看各个性能指标,一个设备的人均检查需要3分钟左右;至2019年,交换机和服务器数量已超过2000台,每次全面巡检一次需要约6000分钟(100小时)。

      机房日常检查只能通过人工现场巡检,对机房温湿度数据、UPS、空调状态、有无漏水等情况进行现场确认。每个弱电间至少需要耗时3分钟,核心机房至少30分钟,一天只能巡检一次。且故障发生时,很有可能不在巡检时间段内,从而导致机房、弱电间环境等问题无法及时发现和处理。

      3、业务系统复杂故障定位难

      信息系统的正常运行需要服务器相关硬件、数据库、应用软件、网络设备、光纤线路等各个环节的支撑,一旦发生复杂故障,技术人员只能依靠运维经验进行各个环节的排故,缺少便捷的工具辅助定位故障,技术人员对现场运维工作面临以下压力:

      (1)当终端设备比较分散、系统使用非高峰时间时,区域性重大故障不能短时间内做出判断;

      (2)故障现象不能很直观地反应出故障原因,需要进行一系列相关设备的排查。

      从历史故障数据统计结果看,一个复杂故障准确定位时间大概需要30分钟以上。根据2017年运行科室的案例故障定位及处理时间统计如下表所示:

    上海浦东国际机场信息系统智能化运控平台的建设与应用

      4、重大故障无预警机制,无法预判

      业务系统自动化展现效果不足,需要人工干预;技术人员缺乏预判故障风险能力,面对故障隐患主要依靠人工巡检、定期维护的方式来进行预防,费时费力且无法实现实时主动监控。

      浦东机场航班密度越来越高,基本处于24小时不停航的状态,面对用户对业务系统的高可用性需求,被动等待故障发生,事后处理的运维模式势必影响航班的正常运行。因此,浦东机场技术人员急需一套全面、成熟的预警机制来解决以上难点,从海量历史故障数据中提取有价值的数据来产生合理的预警信息,降低故障率、提高系统可用性、延长业务连续性。

      面对以上痛点和运维难点,机电信息保障部以“智慧机场”理念为指导,信息化技术为基础,于2016年开始筹备信息系统的智能化运控平台建设,从而全面提升上海浦东机场各类信息系统整体运行服务质量水平。

      二、智能化运控平台建设的实施过程

      智能化运控平台依据浦东机场运维管理规范和实际管理需求,结合业内标准和最佳实践,通过实施先进的运维和监控管理工具,建立以服务为导向的运维监控管理平台,实现对机场IT网络内的设备和系统进行集中监控与展现;实现系统运行维护的自动化与规范化;实现运维工作透明化、可视化、流程化、制度化和可控化;同时促进日常运维工作效率和水平的不断提升,保证运行维护工作的高质、高效开展。

      整个IT运控平台的具体建设实施过程如下:

      1、运控平台的架构设计

      运维平台采用分层、模块化的设计技术,模块与模块、层与层之间松散耦合,各模块可独立部署、升级扩容,既相互独立工作,也具备良好的耦合性,形成一体化监控系统。监控系统具备良好的开放性,支持快速融合第三方监控工具,实现资产配置与告警事件的自动抽取与集中展现等。监控系统具备良好的扩展性,管理范围、管理深度和管理功能均支持平滑升级和扩展,满足不断发展的运维管理需求。监控平台主要由资源配置管理、集中监控管理、综合管理三大部分组成,实现“监、管、控”一体化的运维管理解决方案。系统总体架构如下图1所示:

      (图1:平台架构图)

      集中监控管理部分主要对生产环境中IT基础设施的集中监控管理,包括传输网络设备、主机/虚拟机、存储设备、安全设备、实战应用系统等性能采集和事件处理,并利用监控可视化平台提供大屏展现等能力,同时支持与第三方系统集成能力,比如云平台的集成接入等。

      综合管理部分包括统一运维门户、报表平台、全文检索、权限管理及分级管理等主要模块,以保证平台不同角色的运维人员可以通过浏览器访问到自身职责对应的功能和视图,是信息的集中呈现窗口和日常工作平台。

      资源配置管理部分将运维监控和软件、硬件基础信息有效结合,将分散的视频资源、网络资源、主机资源、虚拟机资源、数据库资源、中间件资源、存储资源、业务系统等整合在一起,通过关联将资产配置信息丰富化。并且能够很好的适应云计算、虚拟化技术的应用,能够快速适应虚拟化基础架构的变化,能够从数据建模、数据收集与维护和数据分析应用三个方面实现对资产和配置数据的管理。

      运维平台主要包括3大类数据,告警监控数据、性能监控数据、资产配置数据,通过性能管理库与资产管理库的数据交互,经分析处理后形成可供使用与展现的标准数据、报表抽取数据和流程数据。数据经过标准化处理后,将分别提供给运维服务流程作为流程运转的关键数据,提供给集中展现功能进行直观、动态的信息展现。

      另外,开发了相对应的基于安卓和IOS操作系统的移动端软件,能够实现移动端的相关业务功能。

      2、业务功能的实现

      (1)数据一体化

      智能化运控平台实现了对网络设备、服务器应用、云平台以及机房环境监控的综合集中监控,不再需要通过各自独立的监控工具检查系统、设备的性能和状态,提高了运维效率。

      ——网络监控管理功能模块主要包括网络故障监控模块、网络性能监控模块、网络拓扑管理模块、网络配置管理模块、网络安全管理模块等。

      ——服务器资源监控主要包含除基础网络之外的服务器相关资源,包括主机、数据库、中间件、通用服务等,并能从业务角度出发,将上述分散的资源进行逻辑组合,构建业务逻辑模型,实现业务层面监控。

      ——集成接入云平台,实现对云平台虚拟机性能状态、网络状态等各项资源的实时监控。

      ——完成与原有机房监控管理系统的集成建设,内容包含:机房环境监控系统的机房设备设施及监控资源的基本信息;机房环境监控系统的机房设备设施运行状态信息;机房环境监控系统的机房设备设施运行监控指标信息;机房环境监控系统的故障告警信息等。

      (2)信息可视化

      IT运控平台通过视图的方式呈现,包括基础动环、网络架构、服务器设备、云平台、业务服务等方面的信息,通过资源分组组件、统计分析数据、运行评估数据的形式在同一界面全屏显示,监控内容和数据资源支持以3D空间视图的方式呈现,支持通过动态动画交互呈现,并可通过第三方分屏工具投放到监控大屏幕上展示。如下图所示,为运维综合分析数据的3D呈现如下图 2. 所示:

      (图2:运维综合分析数据呈现示意图)

      网络可视化实现对主干网、离港网、安防网等三大生产网络的核心、汇聚网络设备运行情况进行实时展示。同时按网络分区、网络分层对各类网络设备和资源进行可视化展现。实现全局总览和局部重点关注,也可独立显示当前层级的网络拓扑结构。系统的网络可视化呈现支持对网络运行统计数据、网络健康度分析评估数据的可视化展现,另外还支持对网络设备的在线状态、设备运行性能指标、故障告警等各类运行态势数据的实时展现,如下图3所示:

      (图3:网络可视化呈现)

      信息系统可视化支持多维度、层次化来展现业务系统的组成和运行态势,提供基于应用系统整体运行态势监控视图,也提供基于应用系统基础架构组成关系的业务逻辑监控展现视图。另外,信息系统资源可视化呈现视图实现对机场各类设备设施根据所属系统、分布位置等进行分类统计和可视化展现,综合展现系统运行中心所负责维护管理的资源的整体情况。目前接入了离港、航显、广播、CCTV、门禁、呼叫中心等10多个信息系统,300多台服务器,展示示例如下图4所示:

      (图4:信息系统可视化展示)

      (3)监控智能化

      监控智能化主要体现为两点:一是故障实时告警;二是运行态势提前预警,预警功能分为网络和应用两个层面。

      智能化运控平台一旦监测到系统设备或应用的异常,可以根据各系统设置的轮巡时间最快发现异常并实时发出告警,告警的发出提供声光效果设置,不再依赖人工查看。告警信息将包括故障的设备信息、所在机房等数据自动生成报修工单推送至移动端。

      提前预警根据系统历史数据,结合大数据算法,评估系统未来的运行趋势,将故障发生的可能性提前进行警示,目前主要实现了网络的健康度分析和应用的健康度分析:

      ①网络健康度分析评估支持对机场整体网络、分区网络及网络设备进行健康度评估。网络设备的健康度分析评估从设备所处网络位置、设备使用年限、设备故障记录、设备性能负载、设备流量负载、支撑业务应用等维度进行综合分析。通过各维度权重分值进行加权计算设备所得健康度。

      ②应用健康度分析评估支持对机场各业务应用系统及应用支持资源的健康度评估。业务应用分析可以统计在一定时间段内,关键应用系统可用性、宕机次数、宕机时长、运行趋势等以直观对比形式呈现出来。根据设备监控指标历史监控数据,对系统资源性能态势进行预测。

      (4)运维移动化

      运维移动化的实现依托于移动端APP的开发使用,实现功能主要有以下几点:

      ——智能化运控平台生成告警、发出报修工单,运维人员可以在移动端实时接收故障位置、故障设备等信息后根据自身位置进行就近接单。

      ——在线运维支持功能,已完成的工单信息形成运维经验共享知识库,运维人员可以得到历史故障处理信息的在线支持;也可以与其他技术人员连线支持,并通过关联照片的上传等进行互动说明。

      ——巡检保养工单自适应生成,根据当日巡检内容,按照不同系统、不同区域的设备生成就近最合理的路线。

      ——备品备件联动管理,故障处理需要使用备品备件时在对应工单填写使用情况,自动关联至管理库进行登记、扣除等。

      ——绩效考核量化支持,签到功能提供人员是否到岗情况,每个报修工单会根据处理的故障复杂程度进行不同的分值设置,处理人员会得到相应的分值,为工作量化考核提供依据等。

      3、IT运控平台建设的成效

      (1)预防,实时对系统进行健康体检

      运控平台通过实时监控网络性能、分析应用状态等手段,评估系统整体健康度,实现系统运行数据一体化,全局掌握系统的健康水平。

      平台对网络设备实时监测,并对设备性能进行评估,设备性能监控指标包括:在线状态、Ping延时、CPU、RAM、端口状态、端口速率、端口包速、端口丢包率、端口错包率等。

      通过Agent方式和多种协议方式管理和监测系统服务器硬件指标和操作系统,支持不同操作系统的服务器、小机的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件、网卡和日志等信息的分析与监控,收集系统日志信息等,最终形成各业务系统的总体健康“体检报告”,如下图5所示:

      (图5:系统整体健康评估展示)

      (2)预警,提前消除故障萌芽

      预警是根据健康体检数据,结合历史故障数据和历史体检数据分析系统当前运行趋势,对不平滑数据进行实施预警,人工干预,提前遏止故障萌芽。

      预警功能的实现,能够提前发现网络设备或服务器端的异常,提醒技术人员进行分析、确认,并采取相应的预防、干预措施,在用户无感知的情况下快速定位、快速解决。

      自智能化运控平台上线至今,通过平台告警快速定位区域性故障,平台预警提前干预的处理方式,减少了故障数量,提升了系统的安全性能,延长了业务的连续性,从而进一步提升了用户的使用体验。以航显系统为例,平台建成后故障量较之前明显下降,如图6所示:

      (图6:平台建成前后航显系统故障量对比图)

      (3)预控,提升现场管控水平

      智能化运控平台上线至今,已实现对所辖2200多台汇聚层、核心层、接入层的交换机进行集中监控,一旦设备发生故障,最迟将在10分钟内发出告警;告警信息关联设备,从系统架构层面,可以定位到系统的不同层面,例如服务器,中间件,还是网络设备,从物理位置层面,可以定位到具体机房。重大故障发生后定位故障的时间由原先的30分钟缩短为5分钟,实现了故障快速定位,提升系统管控能力、提高用户体验。

      终端点位散的系统或系统使用非高峰时段发生服务器端故障时,智能化运控平台能通过网络设备、系统应用状态以及机房环境数据的实时监测、综合信息显示,帮助运维人员对接报故障进行原因关联预判,能够更快速地处理解决问题。以安防类系统CCTV和门禁系统为例,根据平台发出的相关告警提前发现设备下线、网络设备端口下线或服务器相关进程异常等,快速定位故障点,区域化故障平均处理时间减少约30分钟。智能化运控平台的建设进一步优化了业务流程,同时缩短了故障处理排除闭环时间,具体对比信息如图7所示:

      (图7:故障处理时间对比图)

      四、总结和展望

      “平安机场、绿色机场、智慧机场、人文机场”的四型机场建设中,智慧机场建设是关键支撑。浦东机场机电信息保障部借助前沿科技,推动建设了智能化运控平台,将系统运维防线前移,在“预”字上下功夫,扎紧“预防、预警、预控”的篱笆,提高了业务系统的连续性,也加强了现场的一体化管控能力。

      未来,浦东机场的技术保障团队将继续挖掘信息系统智能化运控平台的潜力,在架构设计已具备良好开放性和统一性的基础上,继续深入机房监控,新增核心机房目视化管理模块,将进出机房人员作业全监控;考虑引入网络流量监控,做出安全分析,实现网络信息安全态势感知的新功能,努力将浦东机场打造成“国内最好、世界一流”的智慧机场。

    18荐闻榜