您好,欢迎来到百家汽车网。
搜索
您的当前位置:首页计算机系统运行监控探究

计算机系统运行监控探究

来源:百家汽车网
维普资讯 http://www.cqvip.com 计算机系统运行监控探究 中国人民 随着人民银行信息化建设的不断发展,以网络和 数据库为基础的应用系统越来越多,系统集中程度越来 越高,如网络基本服务系统、账户系统、财务系统、发行 系统、邮件系统等。2007年,人民银行总行进一步提出 统预警检查。如何加强系统运行监控,提高系统维护质 量成为当前提高科技服务水平的关键。 一、系统监控类型和方法 了数据集中和资源整合的要求,分行科技部门直接管理 的系统和设备大量增加。随着设备数量的增加和系统复 杂程度的提高,系统管理人员面临的管理任务急剧增 加。 总结多年维护经验,我们认识到,系统运行维护与 系统开发有着不同的规律。无论应用系统开发采用何 种技术,只要系统正式交付运行,都可以通过对系统 目前,人民银行武汉分行湖北辖内共有网络设备 进行规范的监控了解系统运行是否正常,并采用相应 100余台,机关内部各种交换机3O多台,各种应用系统 服务器30余台,桌面PC终端450余台,总行推广和自 主开发的各类应用系统26个,科技处专门从事系统维 预防措施,优化系统配置,防止系统宕机等重大事件 的发生。 系统监控分为设备硬件使用情况监控、操作系统运 护的人员只有6人。为了保证系统正常运行,系统管理 员需要经常进行系统巡查,忙于故障排除,难以顾及系 行情况监控、数据库运行情况监控、信息发布系统运行 情况监控、应用系统特殊进程运行情况监控、网络运行 中国金融电脑2007年第5期・17 维普资讯 http://www.cqvip.com 状况监控等六个大类。 1.设备硬件使用情况监控 针对设备硬件,主要监控参数包括: (1)CPU信息 记录用户、系统、I/0及空闲分别占用CPU的百分 比。通常情况下,CPU占用比例大于70%的时间超过1/3 时,应该加强对CPU监控,找出CPU消耗的主要进程, 分析进程高CPU占用率的原因。CPU占用比例大于 80%的时间超过1/2时,应同时加强内存监控,考虑升级 设备。 (2)存储信息 记录系统空闲内存与空闲交换区数量。由于内存 使用具有较大的随机性,繁忙和空闲时的使用情况差别 较大,所以内存监控应具有一定密度,采样要覆盖应用 的整个时段。当内存使用数量小于等于物理内存数量 时,系统运行效率较高。当使用交换区数量达到物理内 存数量的2倍时,系统虽然仍在运行,但系统反应明显 迟钝,CPU使用率通常为100%,此时应及时扩充内存, 或修改应用程序,减少内存使用。 (3)磁盘I/O信息 记录硬盘的毫秒级平均服务时间、硬盘事物活动 等待率和硬盘繁忙率,对每一个设备设置单独记录, 这些信息能够反映服务器的磁盘运行状态。经常检查 硬盘空间,确保系统具有足够的交换空间是避免系统 宕机的重要手段。通常可以借鉴的方法是,通过一周 高密度(每小时一次)连续记录磁盘空间变化,得到 磁盘空间变化率P=(已用磁盘空间一初始磁盘空间)/7 天。设磁盘空间为 ,则磁盘空间告警时间T=85%*V/ |pf天1。在告警时间未到时可以以较低的检查频率对磁盘 空间进行抽查。 根据上述原则,我们对银行信贷登记系统和电子 邮件系统进行了长时间的监控,两系统CPU的空闲率 均较高,但磁盘空间消耗较大。为了避免邮件系统宕机, 我们定期进行邮件系统文件清理,并对大邮件进行了适 当。在以往的监控过程中,通过对硬盘I/0的监控, 我们发现了银行信贷登记系统I/O较长时间处于满负 荷状态,CPU使用率为99%~100%,系统响应缓慢。经检 查,确认磁盘阵列中一块硬盘损坏(H70小型机硬盘指 示灯在机器内部),通过及时更换硬盘避免了系统崩溃。 18・中国金融电脑2007年第5期 2.操作系统运行情况监控 针对操作系统,主要监控参数包括: (1)进程数量 记录进程数、运行进程数、运行队列进程数,通过这 些信息,可以了解服务器的应用负载情况。 (2)进程信息 记录每个进程的详细情况,如进程优先级、占用内 存、运行累计时间等,在特定的情况下采集,用于分析系 统中各任务的具体运行状况。 通过对操作系统的监控,我们能够发现非正常运 行的进程,从而提前发现计算机病毒对系统的侵害。 由于系统进程数多,平时不可能对所有进程进行监控, 我们采用的主要方法是重点监控和数量监控相结合的 办法。重点监控是重点监控CPU占用前5位和内存占 用前5位的进程,查看进程是否正常;数量监控就是 在系统安装完成后,统计正式运行时的进程数量和进 程名称,由于大的应用系统是专机专用,所以如果进 程数量发生变化,则说明系统存在安全运行隐患。当 进程数量增加时,很可能系统受到了病毒感染;当进 程数量减少时,很可能是由于系统资源耗尽,造成系 统长期处于等待状态。两种状况下,系统管理员均应 对照进程名称查找增加或减少的进程,并采取相应技 术措施。 目前,系统进程监控主要通过手工进行,为了提高 监控效率,我们针对国库应用专门开发了进程监控程 序,对系统进程进行实时跟踪,及时发现进程异常情况, 在实际应用中发挥了很好的预警作用。 3、数据库运行情况监控 针对数据库,主要监控参数包括: (1)文件系统信息 记录存储空间大小、已用空间、可用空间、容量以及 文件系统安装的位置,对每一个文件系统设置单独记 录,反映服务器的文件系统的使用情况。 (2)系统日志信息 定期检查系统错误日志、系统备份日志,这些信息 是诊断数据库运行故障的重要依据。 (3)数据库性能信息 数据库每分钟在读取和写入时遇到的错误数(个) total_errors、在输入和输出操作上花费的时间(按秒计) 维普资讯 http://www.cqvip.com io busy、读取的输入数据包数( ̄')packets—received、写入 的输出数据包数(个)packets_sent、在读取和写入数据包 时遇到的错误数(个)packet—errors、读取的次数(kB)to— talread、最长死锁时间—关注。 (6)监测DNS系统性能 模拟真实用户发送DNS请求,验证DNS Server是 (毫秒)DeadLockTime、死锁数 否有响应,解析结果是否正确。 DeadLockNum,通过这些信息可以为提高数据库性能提 供参考依据。 数据库是应用系统监控的重要对象,在实际运行 中,监控最多的是文件系统的空间使用情况,其中又以 日志空间为主。账户系统、财务系统、银行信贷登记咨询 系统等应用系统日志量增长较快,在系统安装时又没有 将数据库日志设为自动清理,往往由于日志空间被占满 而影响系统运行。以财务系统为例,在月终处理业务的 高峰期,日志空间使用率将在2天内达到100%。为此, 我们通过手工方式加强了对日志空间的监控,并定期备 份和清理日志。 4.信息发布系统运行情况监控 针对Web系统,主要监控参数包括: (1)监测系统主机 检查CPU、内存、磁盘I/0及磁盘空间使用情况,确 保Web系统有一个良好的运行环境。CPU、内存使用率 过高、磁盘空间不足会导致系统崩溃。 (2)监测系统软件(IIS)进程占用的CPU、内存,ping 服务器状态 服务响应信息包括:ping包成功率 )、数据往 返时间(ms)、状态值,这些信息主要反映服务器生存 状态。在监测过程中,ping包成功率为100%,数据往 返时间一般不超过1Ores,状态值status为200(表示 成功)。 (3)80端口响应信息 服务端口数据往返时间(ms)一般不超过200ms,监 控服务端口响应状态。 (4)监测IIS系统性能 通过IIS监测器、ASP监测器监测IIS性能,监测 参数包括请求速率、错误请求数、当前连接数、脚本 运行错误数等,这些信息能够反映Web服务的负载情 况。 (5)页面下载时间 一般如果页面的平均响应时间接近10秒,用户就 会感觉系统很慢。当页面响应时间超过60秒时要特别 (7)记录程序错误日志 通过上述几个方面监控,结合硬件监控和系统监 控,能够很好地掌握Web服务的状况。根据监控数据, 武汉分行调整了分行网站的服务内容,将资源占用严重 的视频服务在非业务时间,限定部分业务的访问范 围,同时将软件下载服务转移到分行rI1P服务器上,以 减少服务器CPU和内存负载以及对服务器硬盘空间的 占用。武汉分行网站的页面平均响应时间控制在1秒以 内。 5.应用系统运行情况监控 针对应用系统,主要监控参数包括: (1)特征进程信息 监控进程占用CPU、占用内存、运行累计时间,这些 信息反映应用程序运行状态。 (2)数据存储信息 监控数据库连接、数据库响应、数据读写响应,这些 信息反映应用程序后台运行。 应用程序监控是建立在服务器基本信息监控之上 的,在全面了解服务器运行状况的基础上,通过监控应 用程序所特有的进程,及时发现应用服务的故障。特征 进程的选择有赖于对应用程序的深入了解和长期维护 经验。以银行信贷登记系统为例,provinceserver start是 异地查询和备份的关键进程,当数据库操作失败后,系 统会停止上述进程,造成异地查询和备份的失败。因此, 监控该进程就能够正确反映异地服务的状况,起到预警 作用。 6.网络系统运行情况 针对网络,主要监控参数包括: (1)网络基础服务信息 监控路由器连通情况、电源情况、接口状态、接口流 量、接口丢包率、CPU使用情况、内存使用情况,这些信 息反映网络通信状况和负载分布状况。 (2)网络连接数 记录状态分别为CLOSED、LISTEN、SYN—SENT、 SYNRECEIVED、ESTABLISHED、CLOSEWAIT、FINW ——中国金融电脑2007年第5期・19 维普资讯 http://www.cqvip.com 理 AIT 1、CLOSING、LASTACK、FINWALT2、TIME WAIT _—_情况。 的连接数量,通过这些数据可以分析服务器的网络访问 行为模型。 (3)应用活动状态 一由于网络应用标准统一,加之网络监控长期以来 直是系统监控应用的重点,所以网络运行状况监控 的模式较为成熟。通过各种网管软件能够较为全面地 了解网络使用情况,对网络系统的控制也较为有效。 下一步网络监控的重点是如何将网管、IDS、漏洞扫 描、补丁分发、防病毒等各类监控系统有机地结合起 记录服务器上关键应用的建立连接时间,如fTrP、 TELNET、MAIL、HTFP、POP、数据库等,对每一个应用设 置单独记录,这些信息可以用来分析各网络应用的负载 表1重点监控参数指标 系统名称 参数名称 cPu使用率 路由器 内存使用率 接口使用率 cPu使用率 交换机 内存使用率 丢包率 CPU使用率 内存使用率 公文传输系统 Lolus所在磁盘剩余空间 Notes.inj CPU使用率 账户管理系统 /tmp/db21og空问 网络地址 provinceserver start 银行信贷 登记咨询系统 Receive.I 人事信息 管理系统 Sybase所在磁盘剩余空间 故障信息 NOTES进程 Paging Space 内网NOTES 逻辑卷状态 60% 关注 <1OG 关注 <5G 连续报告永久错误 未启动 70% stale 告警 告警 告警 告警 告警 T(临时) 关注 . 50个文件 关注 2O% 6O% 关注 关注 >200个文件 5O% 75% 告警 告警 告警 CPU使用率 内存使用率 Bankcredit.1og 70% 关注 5O% 70% 切换 <1oc 关注 <5G 告警 告警 告警 告警 告警 告警 告警 定期检查 有变化 关注 关注 关注 60% 85% 不通 进程未启动 9O% 阈值1 lO% 25% 70% lO% 25% 2% 25% 6O% 状态1 关注 关注 关注 关注 关注 关注 关注 关注 3O% 5O% 90% 3O% 40% 5% 40% 8O% 阈值2 状态2 告警 告警 告警 告警 告警 告警 告警 告警 电子邮件系统 /notesmail.notessys2空间使用率 75% HACMP进程状态 Cluster系统状态 关注 85% 未启动 停止 告警 告警 告警 Mail.box中邮件大小 手_[联行对账 nSeⅣer 大于1M 关注 大于2M 进程未启动 告警 告警 电子邮件系统 Domino系统所在分区剩余空间 <300M 关注 <500M 告警 20・中国金融电脑2007年第5期 维普资讯 http://www.cqvip.com 来,发挥综合效益,提高系统反应速度和自动化程度。 具有一定参考价值的参数体系框架,同时对分行科技工 作起到了促进作用。一是综合反映了武汉分行技术人员 二、主要应用系统监控参数指标 总行提出数据集中的系统建设总体方向后,武汉分 行科技处较早地认识到了监控对于建设数据中心的重 要性,已经对部分应用系统进行了监控管理。通过较长 处理及归纳问题的能力,体现了整体技术水平和高度的 责任心;二是通过交流监控参数及问题处理经验,促进 了科技处内部负责不同系统及设备人员之间的相互沟 通,进一步拓展了技术人员对各系统的动态监控能力; 三是达成共识,借鉴经验,提高对监控目的的认识,有助 时间的观察和实践,对现有各种系统提出了表1所示的 重点监控参数指标。 三、当前监控系统存在的主要问题和 应对措施 系统监控的加强,提高了武汉分行系统维护的水 平,增强了系统管理的预见性,避免了一些业务系统运 行的中断,取得了较好的效果。但目前系统监控还主要 依靠手工方式,凭借技术人员责任心来保障,这种监控 方式主要存在以下问题。 一是监控密度低。目前监控手段主要是手工操作方 式,由于人手有限,任务繁重,所以长期的系统监控难以 做到每天多次,监控密度远低于实时监控的要求,监控 的有效性无法得到全面保证。 二是监控反应实时性差。由于监控密度低,间隔时 间长,当发现问题时,系统可能已较长时间处于故障状 态。 三是综合性差。由于各应用系统分别由不同部门维 护,监控缺乏整体协调,而在数据集中的环境下,系统故 障往往是网络和应用系统的综合表现。分散的监控不利 于故障的及时排查和解决。 四是监控质量难以保证。手工监控受到人员情绪、 人员素质、责任心、技术水平等各种主观因素的影响,难 以考核和评估监控的结果。 针对上述问题,我们正在尝试运用综合管理系统提 高系统监控水平。2007年初,开发了网络监控系统,对 全省网络设备进行24小时不间断监控,积累了较长时 间的监控资料。通过运用工具软件,扩大了监控范围,增 加了监控力度,提高了监控水平,降低了劳动强度,提高 了系统运行速度。 通过这次系统监控参数指标体系研究,不仅得到了 于今后监控在标准化、综合管理方面迈上新台阶;四是 总结监控参数,共同参与制定下一步规划,促进了科技 人员提高技术水平,在保障各系统健康运行中发挥更大 的作用。 全行建立一个统一的综合管理系统,集网管、应用 系统于一身,通过可裁减方式对数据中心进行全方位自 动、直观、准确、及时的监控,可以降低对监控人员的技 术要求,降低劳动强度,提高劳动效率,是系统维护的发 展方向。 随着人民银行数据集中程度的提高,系统管理任务 会越来越重,通过运用监控系统,采集大量数据,再运用 数据挖掘技术探索各个参数与系统稳定运行之间的关 联关系,预测系统运行趋势,从而建立高效的监控参数 体系,是人民银行提高自主维护水平的有效方法。因此, 目前应该避免各自为政的局面,避免“头痛医头,脚痛医 脚”的应对式系统建设,而应站在全局的高度上,统筹规 划,合理布局,努力发挥综合效益。帕固 中国金融电脑2007年第5期・21 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baijiahaobaidu.com 版权所有 湘ICP备2023023988号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务