网络溯源追踪系统的日志管理与运行维护? – 作者:郑州埃文科技

日志管理提供对日志信息的集中管理功能,收集内外网分布式环境下各分系统软硬件日志,对收集到的日志信息根据严重程度、影响的范围、事件类型、数量等进行有效的存储、存取、查询、检索和统计,实现操作溯源和操作审计功能。

操作溯源,系统保留所有操作痕迹,能够对每步操作时间、操作人、状态修改、内容调整等信息进行回溯,追踪操作轨迹。并支持进行图形化轨迹展示。易用性操作,在操作列表可快速对操作进行溯源。

操作审计,系统自动记录所有用户的相关操作:登录、操作模块、退出等操作。并支持进行审计历史查询。

本模块有两个界面,分别是登陆日志界面和操作日志界面。这两个界面都提供基本的查询功能,查询字段包括操作人名、操作人真实姓名和操作时间等。日志表格展示字段包括操作人、真实姓名、操作内容、浏览器、IP地址、操作时间等信息。

运行维护模块由数据采集、监控信息收集转发、监控数据存储和监控分析,共计4个部分组成,支持对各类网络设备、链路、服务及应用等资源进行管理、状态监测和维护,具备设备管理、状态监测、日志记录、故障告警、状态预警、升级维护等功能,将各种复杂的运维管理工作简易化、便捷化与自动化,有效帮助运维人员提高管理效率与水平。

1、数据采集

采集器在监控目标上的一个监控代理(Agent),根据系统配置项,通过SNMP、SNMP Trap、Syslog、Telnet/ssh收集全网主机、网络、数据库、系统、应用的各类监测数据、本地资源状态和应用程序运行状态,并将收集到的数据报告给监控信息收集转发模块或直接报送监控数据存储模块。

2、监控信息收集转发

收集并转发采集器部分收集的各种性能、可用性等数据,减轻监控数据存储模块的连接负载压力。

3、监控数据存储

监控数据存储使用一个本地存储,存储所有配置信息和收集到的各节点的运行状态数据、系统名称、资源类型、IP地址、CPU利用率、内存利用率等。

4、监控分析

监控分析对收集到的系统监控数据的综合分析和判断,包含设备管理、状态监测、日志记录、故障告警、状态预警和升级维护的功能。

(1)设备管理

设备管理主要是系统中服务器设备、网络设备、安全设备、存储设备等进行统一的登记、管理维护。设备管理包括了一个完备的对象型数据库CMDB,使得运维人员可以管控其所辖的全部配置项。它通过识别、控制、维护和验证现有的所有配置项的版本,提供一个IT基础设施的逻辑模型。由于CMDB也会记录配置项之间的关系,因此运维人员可以轻而易举地分析基础设施与服务之间的依赖关系。

依据不同的账户划分,登录系统,进行本地资产信息录入,配置。运维中心以管理员身份监管资产信息总体情况。系统的资产配置信息采集支持手工录入和数据导入两种方式。

(2)状态监测

状态监测主要是对基础资源监测、网络监测、应用监测,查看系统运行是否正常进行监测,发现问题及时告警或预警。监测内容包括资源名称、系统名称、资源类型、IP地址、CPU利用率、内存利用率、系统可用性、系统健康度等。通过配置监测项,实现系统状态监测,包括对基础状态监测、网络状态监测、应用状态监测等功能,可以通过给定的IP地址范围内的设备(包含服务器、网络设备、安全设备等)进行扫描,发现设备以及设备上的标准应用和开放的端口;通过拓扑图实时监控设备的运行状态以及设备上应用的运行状态,包括业务资源、应用的运行状态;通过配置SNMP等各类协议了解服务器的运行情况,包括服务器的CPU利用率、内存使用率、磁盘I/O情况、网络流量情况等信息,并且可以根据信息画出跟踪图表;支持全网运行状态总览,包含设备运行状态统计、设备厂商统计、最新告警时间、故障设备列表、关键设备CPU历史曲线等信息,支持对服务器上Oracle、sqlserver等数据库的实时监控管理,包括数据库名、版本、并行状态、基本配置等信息。

(3)日志记录

日志记录是记录软硬件系统操作及事件反馈的信息,同时监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。采用development(开发环境)、test(测试环境)、production(生产环境)等不同的日志配置,根据环境变量自动识别。日志的记录采用fatal(致命)、error(错误)、warn(警告)、info(信息)、debug(调试)、trace(追踪)6种日志级别。

(4)故障告警

故障告警是运维系统对各种设备、应用及业务等资源的运行进行全盘监控,根据设定的预警和告警阈值,建立及时响应各项业务的预警和告警机制。结合系统的告警敏感度、异常过滤、告警过滤及异常依赖等多种高端技术手段,能在众多的告警信息中,屏蔽大量的无用、冗余等不重要的告警信息,从而准确定位故障根源。建立集中的告警分析及展现模块来提供灵活、自动化的事件处理能力。告警管理提供事件分析引擎和业务影响依赖分析,可对事件进行压缩、归并和根源分析;多类型告警集中处理,包含IT资源、业务系统、安全、机房环境等告警,通过短信、邮件多种方式告警通知,用户可自定义告警策略与内容,减少误报漏报。

(5)状态预警

状态预警是针对运维过程中面临的风险,对未发生的安全事件进行预估,预判可能发生的安全事件,从而实现安全状态预警。针对运维过程中,针对面临的风险,预判可能发生的安全事件,从而实现安全状态预警。在风险状态预警中,根据对象的实际情况及风险管理者的经验,合理划分风险预警区间,判断风险量处于正常状态、警戒状态还是危险状态。

(6)升级维护

升级维护是对系统运维子系统当前版本的漏洞进行完善,或者对软件添加新的应用功能的更新,使该系统更加完善好用。升级维护是对系统运维子系统当前版本的漏洞进行完善,或者对软件添加新的应用功能的更新,使该系统更加完善好用,优先通过灰度发布方式实现系统的升级维护,以保证系统的持续运行。

来源:freebuf.com 2021-05-06 16:59:02 by: 郑州埃文科技

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论