1 平台自身的管理
Patrol Inspire IT运维监控系统具备自身的审计系统,审计Patrol Inspire IT运维监控系统上的所有动作,系统上的操作权限和审计修改权限进行了分离,审计只能由审计分析员进行处理,从而确保审计信息的完整性、保密性和有效性。
系统状态监测
系统具备自我监测能力,利用核心进程控制的高可靠性对自身的各个系统进程进行统一管理,监视进程状态。
Web
图 1‑1监控引擎自身性能图
日志管理
日志记录:系统自动记录使用者的操作日志和系统定时执行任务的过程日志,当对网络或系统造成较大影响的操作发生时发送告警信息,日志包括执行者、执行时间、执行内容、级别、执行结果
日志查询:提供可定义的查询条件对日志进行查看、导出、打印、备份
图 1‑2监控引擎审计日志图
系统数据管理
系统通过Web页面提供系统数据的备份和恢复功能。所有的配置信息和性能历史数据可以备份和导出。
图 1‑3监控配置自动备份示意图
图 1‑4监控配置本地备份示意图
2 各种视图,多维监视
Patrol Inspire IT运维监控系统中的页面布局管理功能,是面向所有使用者使用的页面布局,使用者可以根据自己的偏好设置页面布局和样式,具体包括:
自定义的视图
图 2‑1监控系统自定义的视图示意图
自定义的仪表板(Dashboard)
图 2‑2监控系统自定义的仪表板(Dashboard)示意图
3 统一集中的事件管理
系统能够对用户网络及系统发出的预警信息和故障信息进行整合和自动化的处理,利用SNMP Trap接收器获取设备或第三方管理工具的事件告警信息,并实现过滤和相关性分析的处理;利用不同类型的监测器采集系统级和应用级的可用性信息,并在监测器指标测量失败时发送告警事件。系统将上述告警信息进行统一格式化后实现集中统一的监测和管理,使管理员可以迅速确定哪些故障会对服务的可用性构成不良影响。
全面的告警监视
支持对SNMP Trap的自动采集
支持对Syslog日志信息的自动采集 *
支持网络设备和其链路状态及可用性类告警
支持对网络设备的端口、流量、负载(CPU、Mem)等各项参数阀值告警*
支持主机、数据库、应用系统等被管理系统的管理参数进行监视、阀值告警
提供建立故障预警管理,通过设置“阀值”,可以不断监测设备负载是否超标(CPU 负载/Mem利用率)、线路流量是否正常,端口是否有持续的错包等现象,在问题发生前及时了解非正常情况。当网络出现如上所述的安全隐患时,系统会发出告警信息,分析判断网络的安全状态,分析非法入侵、攻击、病毒、物理故障等现象 *
强大的告警分析压缩功能 *
告警关联:可定义多种告警类型之间的关系如下:告警恢复,定义故障发生和恢复正常的一对告警;相似告警,定义同一故障引起的不同类型的告警
灵活的通知方式
系统提供了丰富的告警通知方式,支持手机短消息、弹出窗口、电子邮件、语音提示(需采购我司报警灯设备,与该设备联动实现语音报警)等,同时支持分时段告警,支持告警输出与第三方程序联动。
告警显示和统计
提供统一告警监视界面,提供实时和历史告警信息的查看
可按照业务、设备统计异常告警事件的分布
对不同严重级别的告警,以不同的颜色进行显示
可选中某告警查看相关的维护经验
可以查看某告警是由哪些原始事件触发的
支持按照告警类型、级别、告警源、告警时间等不同属性进行告警查询或组合查询统计
可以计划停机,从而减少误报(警告)数量,从而方便设备检修和维护。
*为本系统为我司其他软件完成的功能,可以与本系统集成联动。
图 3‑1监控系统管理控制台示意图
4 全面监控,集中管理
网络系统监控
实现网络设备、网络安全设备的在线状态、端口的输入速率、端口的输出速率惊醒检测的运行情况,发现异常及时告警;设备故障与链路阻断告警,设备与链路性能告警,异常流量告警等。
主机系统监控
实现对HP-UX、AIX、Solaris主机、Windows主机、Linux主机运行状况监控,包括主机的在线状态、CPU利用率、内存大小及利用率、磁盘空间大小及利用率、主机上关键进程状态及其对CPU和内存占用情况、提供关键服务状态、提供所安装软件详细列表、主机的设备信息、ARP信息、SYSLOG 信息、主机的网络接口流量、丢包和错包率等信息。
数据库系统监控
实现对Oracle、MongoDB、Informix、DB2、SQLServer、MySQL、MS-SQL-Server、Postgres数据库等数据库的监控管理。监视数据库运行状态,包括数据库进程、监听状态、例程状态、控制文件、数据库日志文件等信息;对数据库资源监视,包括数据库CPU、内存配置(SGA信息、PGA信息)、缓冲区命中率、数据字典命中率、库缓存命中率、最浪费内存的前10个语句等信息;对数据库存储资源监视,包括数据库文件系统、数据库表空间、数据库表、数据库空间、文件空间等;对数据库Session信息、锁信息、回滚段信息、数据库用户等信息监控。
在参数到达门限值时通过网管系统的事件管理机制发出警告,报告给数据库管理员,以便及时采取措施。
中间件监控
可以实现对MQ 、 Domino、 Weblogic、Tuxedo、Websphere、Tomcat、JBOSS、APACHE、 CICS、 IIS等中间件的运行状态监控。
对WebLogic、 Websphere监控,监控队列信息、监控JDBC连接池信息、监控Web应用信息、JVM堆信息、服务信息。
对Tomcat、JBOSS、 APACHE监控,监控运行状态、服务启动时间、安装目录、总安装目录、运行配置、JVM版本号、JVM可用内存、JVM最大内存、JVM总的内存、线程。
对Tuxedo监控,监控服务启动、关闭时有无错误信息,服务已经处理的请求数、服务正在处理的交易;监控各类队列参数:当前队列的所有请求的参数和、实际请求数、平均队列长度、队列所在机器的LMID等;监控客户端信息,包括客户端状态、启动的交易数、提交的交易数、中断的交易数等;监控交易信息,包括交易名、交易函数名、提供交易的机器的LMID、交易已经执行的次数、交易当前状态。
业务/应用系统监控
实现对关键业务/应用系统的运行状态的监控,通过业务视图方式直观监视业务可用性、端到端响应时间、业务/应用所关联的资源对象的性能和故障等信息。
业务/应用视图管理包括
以图形化的方式创建一个新的应用系统视图;系统记录视图名称、创建时间、创建人、最后修改时间、最后修改人、备注等信息;可以自由的增、删、改应用系统中的节点或节点之间的关系;从拓扑视图以及其它视图导入网元数据,导入后都作为应用系统中的节点;自由的定义节点互相之间的包含关系;自由的定义节点互相之间的依赖关系;以图形化的方式显示告警在一个应用视图内的影响范围等。
服务监控:
包括监控http、DNS、FTP、POP3、SMTP等应用协议的连通性和延迟情况,并且可以模拟服务体验更好的管理web服务。
业务/应用性能监控包括
业务的综合性能指标的排名;业务的响应时间的排名;业务过程内部,所有节点的性能排名,每个节点的总体性能应当是各个性能指标的加权平均值;业务视图中每个节点下性能指标的值。
业务/应用故障监控包括
当业务过程中的节点出现告警时要报告业务故障,节点告警作为业务故障的关联告警;当业务中的各节点发生告警时用户只看到业务告警,查看业务告警的详细信息可浏览节点告警;显示业务总体故障汇总信息和节点的故障统计信息。
图 4‑1监控系统向导项目示意图
5 统计分析,未雨绸缪
系统提供所有被监测信息的各种统计分析报告,展示格式包括了:曲线图、直方图、线面图、数据表、仪表图、PDF、EXCEL文件等等;并提供历史数据的查询和导出;统计时段单位可以是年、月、日、小时,分钟等。提供按照所有被管网络、主机、数据库、中间件、业务系统等对象的运行状态、关键性能、告警、资源等排名和对比等各种统计报表,方便用户直观、多角度了解当前整个IT资源的运行全局。系统提供统计报表管理支持以下功能:
支持按任意时段(日报、周报、月报、年报)方式对指定监测器的历史数据生成报表并输出记录结果。对复杂报表提供二次开发的能力。
丰富的展现格式:提供html、PDF、excel格式的报表,并在这些格式之间进行灵活的转换
报表分发:提供EMAIL/FTP/WEB的方式对产生的报表进行分发
历史报表:对系统已产生的报表可定义查询条件进行检索,并可对检索结果进行浏览、导出、打印、分发的功能
图 5‑1监控系统统计分析报告示意图-1
图 5‑2监控系统统计分析报告示意图-2
图 5‑3监控系统统计分析报告示意图-3
6 分级分域,权限管理
作为IT架构的综合管理系统,系统支持一个管理中心和多个下级管理域的多极管理模式,为运营商和企业提供了多层次多方位的管理功能,不同岗位的管理者所需管理的对象、以及各自的操作职权都不尽相同。
用户和角色管理:为保证安全性,所有登录的用户均采用统一的安全认证。通过用户和角色控制每个管理员的权限,实现用户和角色的多对多管理,严格划分职责和权限。超级管理员可以创建角色和用户,并为不同的角色分配不同的功能权限和管理域权限。一个角色可以包含多个用户,一个用户可以属于多个角色
角色的功能权限分配:功能权限是指管理员在系统管理页面中能进行哪些功能操作。超级管理员可以为不同的角色分配不同的功能权限,比如,可以指定业务人员只能查看系统告警但不能对告警进行任何操作。不同权限的管理员通过Web登录系统后将看到完全不同的功能页面
角色的管理域权限分配:管理域权限是指管理员对树型设备视图结构和树型业务视图结构中的哪些对象和分支有管理的权限。超级管理员可以为不同的角色分配不同的管理域权限。管理员登录后只能收到来自其管理域范围的事件,只能对其管理域中的监测对象进行监测和操作。如可以指定网络管理员只能管理网络设备,系统管理员只能管理主机系统
图 6‑1监控系统用户管理示意图
7 强大的系统管理功能
Patrol Inspire IT运维监控系统中的系统管理功能,是面向超级管理员所使用的,具体包括:
用户管理与权限管理;
系统分布式管理;
系统升级与数据库维护;
基础数据维护;
系统策略配置等。
图 7‑1监控系统管理示意图
8 强大的分布式功能
考虑到监控环境的复杂性和扩展性及被监控系统可能很庞大,所以Patrol Inspire IT运维监控系统提供了Patrol Fusion软件(融合),Patrol Fusion是提供中央仪表板的商业分布式监控解决方案,其功能如下:
可接入多个Patrol Inspire IT运维监控系统服务器。
Patrol Fusion允许您通过部署其他监控系统,从而扩展您的监视环境
Patrol Inspire服务器监控整个基础设施部分,而Patrol Fusion提供了一个中央仪表板
这允许您从单个页面快速查看所有内容的状态。
图 8‑1融合服务器(Patrol Fusion)与Patrol Inspire监控系统架构示意图
Patrol Fusion功能如下
可以设置多个用户访问Patrol Fusion界面
用户可以自定义其视图和仪表板
自动验证和分发Patrol Inspire服务器
中央仪表板提供了整体监控环境的监控和报警
性能图形和其他I / O密集型任务由分布式Patrol Inspire服务器处理
9 紧随其后的系统快照
考虑到监控环境的复杂性和易变更性,容易将系统配置随时不断变更,为了让系统以可连、持久、不间断的服务,Patrol Inspire IT运维监控系统提供了强大的自动系统快照功能,即在系统任何一次的配置变更后都会自动做一个系统快照,从而把系统的RPO和RTO达到最大可用性。
图 9‑1监控系统管理示意图
10 强大的鹰眼报警视图
将关键字和警告显示在具有特殊背景颜色的图块中。
将其他的信息显示在屏幕的下半部分,例如主机和服务的数量,主机和服务的健康状况等。
图 10‑1监控系统鹰眼报警示意图
11 完美的投屏视图
考虑到监控系统往往都会投射到大屏幕上,从而更方便的展示系统状态和报警信息,Patrol Inspire IT运维监控系统提供了投屏视图,该页面每10秒自动刷新一次。
图 11‑1监控系统投屏示意图
12 智能的容量规划趋势预警
Patrol Inspire IT运维监控系统提供了智能的容量规划及趋势报警,具体见下图:
图 12‑1监控系统容量规划趋势示意图
其中蓝色为目前的容量或性能曲线,绿色为系统根据目前性能或容量曲线预测未来的容量或性能曲线。