摘要:网络服务的意外中断会直接影响网络用户的利益,因而故障管理一直都是极为重要的通信网络管理功能,受到网络运营部门的高度重视。随着网络承载的业务越来越多,用户们对网络服务可靠性的要求越来越高,故障排除时间也要求越来越短。因此,如何实现故障的及时发现、自动诊断并提示管理人员进行修复是网络管理的主要研究方向之一,也是世界上的热门研究课题。
本论文正是针对上述问题,以大唐公司自行研发的通信设备为主要研究对象,在深入分析网络故障产生原因、传递方式的基础上,对故障(告警)管理系统作了探索性研究和相关实现。主要内容为:
1.详细分析了各类传输、接入设备告警信息的共性和特性,结合网管发展的统一化和技术化趋势,总结出故障管理模块的功能体系,主要分为四大块内容:告警采集、告警处理、告警配置,以及告警统计。
2.详细研究了告警信息的属性,并根据各种属性将告警信息予以分类。根据告警信号来源和性质的不同,可以将告警分为通信、设备、环境、服务质量、软件错误五类;根据故障轻重缓急的不同程度,可以将告警分为紧急、主要、次要、提示四个等级;根据故障当前状态,还可以将告警分为产生、未确认、已确认、消失四类。
3.设计并实现了告警信息的采集、存储、查询、显示、统计等基本功能。同时结合用户实际需求,实现了告警信息的多级过滤、自动处理、分类统计等高级功能。还充分考虑到用户特点,实现了个性化的告警声、光提示功能。
4.在满足故障管理各种功能要求的基础上,进一步考虑了大容量网元管理、告警风暴管理等性能要求。在一定的计算机硬件平台上(不高于当前主流网管机型配置),完全满足电信行业关于集中监控网管系统的告警管理技术指标。
5.为满足电信运营商“多设备多网管互连互通”的迫切要求,故障管理系统北向提供了标准COBRA接口,南向提供了标准SNMP接口。
关键词:网络管理,故障管理,告警,CORBA,SNMP
故障管理系统是统一网管系统的重要组成部分和核心价值所在,该系统对于监控网络状况、实现网络恢复、保证网络畅通有着极为重大的意义。我的研究课题就是“通信网络故障管理系统的实现”,为了描述方便,我在下文中将“通信网络故障管理系统”简称为“故障管理系统”。需要明确的一点是,故障管理系统也是一种网管系统,而且它是一个仅仅实现了故障管理功能的网管系统。
为了更深入了解相关科学理论与技术,我于前期进行了仔细的调研工作,本章将详细介绍通信技术、通信网、网管技术、故障管理系统的现状和发展趋势。