集中监控 主动“救火”:四川烟草的低碳运维建设

网友投稿 635 2023-04-02

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

集中监控 主动“救火”:四川烟草的低碳运维建设

响应政策 探索创新

日前,2011全国烟草工作信息化会议在北京顺利召开,工业和信息化部党组书记、部长李毅中出席会议并作重要讲话,李毅中在讲话中充分肯定了去年以来烟草行业面对市场环境重大变化和卷烟税收政策重大调整所取得的显著成绩:行业发展保持了良好发展态势,财政增收任务圆满完成,烟草工业带动现代烟草农业取得积极成效,质量品牌工作进一步加强,行业信息化和工业化融合水平明显提高。

为适应投资管理工作的新形势、新要求,四川省烟草公司积极探索创新,大力推进信息化平台的建设,实现数据库统一、网络平台同一等。从而实现以信息化推动四川烟草建设,最终提高四川烟草的整体企业竞争力。

细化诉求 按需运维

随着四川烟草数据大量集中的信息化建设趋势,最终达到企业内部信息化设备或数据资料的集约化管理,提高企业工作效率。然而,数据大集中在方便经营管理的同时,也给信息运维带来了挑战。一方面,数据中心集中了大量的信息系统,技术复杂度和系统之间的关联度大大增强;另一方面运维人员素质的参差不齐,也给信息运维埋下了隐患。可见,四川烟草的信息化需求已经从原来的基础网络建设向系统的实用性和安全性转变。

为确保安全运维,从以下两方面入手是切实解决四川烟草信息化困境的关键:

一、以管理为核心。在整个IT产品的生命周期中,运行管理阶段占所有时间和成本的70%至80%,剩下的时间和成本才用于产品开发。因此,确保信息运维安全必须以管理为核心,切实提高运维水平。

二、建立自动化运维平台。随着各种应用平台的持续投入,四川烟草公司的IT设备和信息系统多而复杂,系统的关联性日益增强。往往一个信息系统出现问题,导致部分甚至全部系统受牵连。因此,单纯的人工管理不能满足企业内部需要,必须有一套切合实际的运维系统辅助信息部门进行自动化管理。对处于运维中心的系统、设备进行监测、防护,实现运维效率的整体提升。

总体监控是关键

建立以BTIM为主体的监控系统,最终的综合监控系统能够很好的满足四川省烟草公司信息系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台。平台能够实现目前四川省烟草公司对全公司应用系统的属地化管理原则,实现两级监控、二级管理的信息综合监测管理模式。能够根据各级管理运行管理范围和责任划分实际情况,灵活定义和界定检测管理的边界,根据实际需求选择和定义对相关检测信息的显示形式和统计方法。对重要的应用系统核心环节能够实现全面的检测和状态管理。

根据四川省烟草公司对监控系统的要求,结合四川省烟草公司网络的实际情况及一些客观的因素:广域网带宽、主机性能、主机数量、管理策略(如设置历史记录、告警等)等,BTIM监控系统采用分层及分片的部署设计。

通过BTIM监控系统,可以实现跨地域分层、分片、跨厂商的业务系统管理、告警事件管理、日志管理、用户管理。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,管理数据采用安全的协议和方式在统一平台上实现共享。

所有功能实现均非互不相关的对立功能软件的堆砌,真正实现了四川省烟草公司建设监控系统的需求。

BTIM监控系统的模块架构图如下:

从上图,可以直观的看出BTIM模块清晰,层次分明。各模块之间既相互独立,又互相关联,共同实现了对被管对象的集中监控和管理,另外也通过WEB方式为用户进行了统一的展现。

综合监控部分主要是对系统各个监控对象进行快速浏览时使用,适合用户查看管理对象的日常运行情况,操作简单,界面直观明了。通过全网主机负载、TOP N排序,主动告诉用户哪些设备需要关注,运行的隐患在哪里。

综合监控功能包括:监控总览、告警总览、运行统计、服务总览。

综合监控的优势

· 综合监控是BTIM监控系统对所有被管对象的一个综合展示窗口,展现直观方便、关联性强。

· 支持全网主机负载自动TOP N排序,主动告诉用户哪些主机需要关注。

· 提供可配置功能,在一个界面上可以配置多个可视化项目。用户可以配置自己个性化的监控首页,这样就可以让用户把自己最关心的东西,一进系统就能马上看到。

· 告警总览。让用户一幕了然了解问题所在。

· 自动生成全网设备运行统计率报表。方便用户了解全网的设备运行状况。

监控总览的功能

为用户提供快捷方便的浏览界面,把用户经常关心的参数指标,呈现在用户面前。

运行总览:列表形式显示全部主机的运行状态,并以不同颜色等级动态显示CPU和MEM运行状态。可按主机名称、IP地址、CPU占用率、内存占用率和等级进行排序,简洁明了显示主机的基本运行状况。该列表信息30秒自动刷新一次。

未撤销告警:显示当前系统正在发生的告警或未恢复的历史告警信息,包括告警描述、发生时间、优先级和告警源。该页面30秒自动刷新一次。

告警总览的功能

· 让用户实时掌握各种告警信息,让用户可以及时的处理故障。

· 按告警类型显示未恢复的告警信息。包括告警时刻、设备、告警内容。

项目收效及用户评价

部署北塔BTIM,四川烟草IT部门能够轻松实现全面的应用系统监控、机房监控,从而使IT基础架构的故障率得到大幅度降低,安全水平得以提高,实现对IT各种设施的有效掌控和管理,管理水平的提高减少了网络非计划中断时间,为四川烟草公司的正常工作提供了IT支撑,提高该企业核心竞争力。

上一篇:使用 systemd 定时器代替 cron 作业
下一篇:SQL-Hive中常用的表格操作
相关文章

 发表评论

暂时没有评论,来抢沙发吧~