基于ITIL服务的用电信息采集运维管理及应用
摘要随着用电信息采集系统的深入建设设施,有效的运维管理工作是系统运行的基础保障,本文通过分析池州供电公司系统运维流程中的需求特定及存在的不足,结合ITIL(信息技术基础架构库)的管理思路,实现了基于ITIL服务为核心的用电信息采集运维管理流程并投入实际应用,为公司营销自动化、信息化水平的不断提升提供了强有力的技术支撑。
【关键词】用电信息采集 ITIL 运维管理
截至2013年底池州供电公司用电信息采集系统接入智能电表146665只,集中器设备1091只,采集器28329只,智能专变负控终端986只。随着系统“全覆盖、全采集、全费控”的深入建设实施,如何规范化、科学化、专业化地做好建设期转向运维期的交接工作,理清“建转运”环节的盲区,实现采集运维服务精细化管理的目标,为采集系统稳定运行提供有力支撑,是供电公司运维管理工作面临的一大挑战。系统日常运维管理中存在主要问题表现在:
一是运维流程缺乏监控机制,故障排查不及时、消缺力度差,影响采集成功率及系统功能模块应用。
二是缺少有效分析管理工具,对采集系统的量化分析仅能通过系统Web界面监控历史数据,分析结果的完整性、及时性和准确性较差;对采集终端设备潜在故障缺乏有效的检测手段;使得运维分析人员无法全面掌握系统问题,只能在故障发生后进行被动式的救火工作。
三是问题反馈机制不健全。缺乏统一的问题收集和整理机制,各营业区域采集运维人员排查故障时,没有及时分析并反馈问题产生的原因,也没有提出相关建议,导致后期运维重复工作,浪费大量宝贵时间。
本文依据ITIL运维管理的核心思想,通过引用ITIL服务运维最佳实践理念,建立以统一的采集设备基础资料库为基础,以处理事件为纽带,以工单流程为核心,实现用电信息采集系统运维工作的可监视、可控性和准确性,确保运维人员从业务角度快速有效地定位及解决采集故障,确保业务的正常运行。
1 基于ITIL的运维管理流程设计
基于ITIL的采集运维工作模式中,流程管理是ITIL服务管理的核心内容。将所有采集系统的日常运维操作全部流程化,通过自动化工具对流程执行情况进行监控与跟踪,以推动和优化每个业务流程的执行。
流程设计坚持以主站监控为核心,建立终端设备、计量装置异常处理调度指挥体系,树立监控中心的调度指挥权威,保障调度指挥体系的正常运转。运维流程涵盖事件管理、问题管理、配置管理、变更管理等相关管理流程。运维过程基于“事前—事中—事后”三个阶段应急管理机制,防止事故突然发生;建立流程化、清晰化的业务流程,提高解决问题的速度和质量,保障日常运维工作流程化、职责角色清晰化,使支持服务的信息更为完整和有效,实现知识积累和管理。同时运维流程设计还需要建立设备基础资料库构建运维流程的数据基础。
1.1 设备基础资料库设计
建立采集终端设备设备运行及维修数据档案,对设备的使用、维修等各种参数进行动态管理,实现设备资源开发、共享和利用,构建设备信息化管理。对采集设备日常管理活动有效地进行记录、反映、统计和分析,实时记录新投运、变更、修改、报废采集终端设备(集中器、智能专变负控终端)资料,保持现场与机内一致。通过建立实时更新的设备基础信息资料,便于现场运维人员查找、定位设备位置、台区信息。技术上采用了Oracle 11G关系型数据库管理软件,构建数据存储空间。数据库概念模型图如图1。
1.2 采集运维流程设计
在对现有运维工作机制的认真分析基础上,对采集运维相关工作流程、工作内容进行了优化调整,进一步规范和明确了采集外勤和采集主站监控的工作业务流程、岗位标准。采集外勤人员负责终端设备安装、调试,采集主站监控人员统一负责用户计量装置流程与采集系统流程的监控操作。通过引入ITIL服务支持管理架构模型,设计采集运维管理流程以实现采集服务管理工作反馈闭环。
流程包括事件管理、问题管理及变更管理三部分,其中事件管理与问题管理针对事件提供支持服务管理流程。事件管理提供应急措施对事件的临时修复提供支持管理,但不负责解决事件。问题管理注重确定并消除引起事件和问题的深层原因。事件管理的目标是采取任何可能的方法,包括一个应急措施来快速地解决事件;对一些仍处于待解决状态的事件来说,对相关问题的调查可解决这些事件。事故管理流程“治标”,问题管理致力于“治本”,最终达到规范业务流程,形成良性闭环反馈机制,进而形成问题知识库。采集相关ITIL服务模式采集管理流程图如图2所示。
(1)事件管理。实现尽快解决出现的事件,保持采集系统的稳定性。如发现规模性采集终端设备故障,实施快速响应故障服务请求,及时就采集故障事件的优先级进行分类,按规范记录事件,分析、诊断并监控结束事件,并进行定期服务流程回顾。对于优先级为紧急及以上的事件,及时上报上级有关部门。当时间处理超过预期时限,将自动通知处理人员和相应管理层,以引起相关人员和管理人员的重视和参与。事件管理流程如图3所示。
(2)问题管理。收集采集运维过程中诊断处理的问题案例,查明事故或问题产生的根本原因,制定解决方案和防止事故再次发生的预防措施;同时实施主动问题管理,在事故发生之前发现和解决可能导致事故产生的问题,将由设备故障、通信链路错误引起的事故和问题对业务的影响减少到最低程度。问题管理流程如图4所示。
(3)变更管理。完整记录所有的终端设备变更资源,对变更请求进行审查、归类、批准并提交;安排变更进度并进行测试,对实施后的变更进行评审。记录因故障处理引起的设备变更情况及对采集系统定期巡检的所有情况。变更管理流程如图5所示。
(4) 配置管理。建立配置管理数据库,完整记录采集设备资产的基本情况和所属情况,记录所有在采集系统的基本情况(包括软件的定期更新版本,系统的维护经验和实施技巧,各类文档资料),记录一段时期内各类技术变更情况,记录所有设备供应商的基本资料(包括技术人员、联系方式等),记录各类与采集系统相关的规定、制度。对配置数据库中各类配置项的正确性和完整性进行校验。
2 采集运维管理流程实施
依据基于ITIL设计的运维管理流程,池州供电公司建设了用电采集系统故障综合分析运维平台,系统包括四个平台和一个核心系统,分别为数据展现平台、故障分析处理、故障工单管理、流程管理平台以及配置数据库管理核心系统。
2.1 系统实施
其中数据展现平台用于实现需求中的统一门户、统一报表等功能,系统界面如图6所示。
采集设备故障分析平台通过与用电信息采集接口,获取用电侧故障智能采集设备,准确定位采集设备故障的终端、电表的故障类型、终端、电表名称、地址、资产号等相关信息。系统界面如图7所示。
工单管理平台实现工单的新建及工单执行全流程的跟踪管理,典型界面如图8所示。
2.2 实施效果
通过建立基于ITIL 的采集运维中心工作模式,公司建立了采集服务支持的流程管理体系,将人员、流程、技术有机的结合起来,并通过操作规范和制度体系的保障,采集运维服务得以有效提供,企业管理水平得以明显提高。系统实施效果具体体现在如下几个方面:(1)工单流程全过程监控。(2)采集故障监控预警分析。(3)采集系统考核指标稳步提升。
3 总结与展望
本文通过分析池州供电公司系统运维流程中的需求特定及存在的不足,结合ITIL(信息技术基础架构库)的管理思路,设计了基于ITIL服务为核心的用电信息采集运维管理流程并通过建设用电采集系统故障综合分析运维平台将运维管理流程投入实际应用,为公司营销自动化、信息化水平的不断提升提供了强有力的技术支撑。
后续考虑深化用电信息采集系统中各类采集器、集中器的潜在故障分析与快速诊断,以进一步提升系统的实用性。
参考文献
[1]甘雯.基于ITIL的集中化IT运维管理流程设计与实践[J].广西通信技术, 2012.
[2]张晨曦,王晓东,许乐.一种基于ITIL的IT运维中心模型设计 [J].微计算机信息,2009 .
[3]周永伟.基于ITIL的网络运维流程的改进研究 [J].计算机与信息技术,2007 (10) .
[4]祝唯微,杨波.ITIL在信息化运维中的应用分析与研究 [J]. 电力信息化,2011.
作者单位
国网池州供电公司安徽省池州市247000