在金融行业,数据库的稳定运行直接影响行业的发展速度。而随着数据库系统复杂度的增加,自动化运维和监控成为保障系统稳定运行的重要手段,但在很多企业中,监控体系和自动化运维仍然处于初级阶段。
信创数据库的运维工具和生态系统相比原有数据库厂商较为年轻,国产信创数据库的数据采集接口不够完善,数据采集的粒度和频率难以满足精细化监控的需求。同时信创数据库自身监控运维能力,是否可以与企业自身的基于Zabbix的统一监控平台进行适配兼容等等问题都是亟待解决的挑战。
本文来自twt社区多位金融专家(具体名单见文后附属)研讨分享形成的同行共识和探讨精华,包括信创数据库监控的核心需求、核心监控指标、监控方案落地途径和设计,以及信创数据库监控工具的发展演进等,以飨读者。
1 信创数据库监控的核心需求
在国家推进信息技术应用创新(信创)的战略背景下,金融行业作为数据密集型和高合规要求的领域,其数据库监控体系面临着技术转型与安全升级的双重挑战。信创数据库应用的日益广泛,在运营过程中对监控工具的适配性、指标全面性和智能化水平提出了更高要求,核心需求可归纳为以下几个方面:
1.1 监控指标的完善与优化
金融行业对数据库的依赖程度,体现在数据库系统资源层的监控外,适配信创数据库的运行状态和性能状态的监控也至关重要。国产数据库在架构、功能和性能表现上与传统国外数据库存在差异,不同的国产数据库之间的实现方式也各自不同,例如国产信创数据库的底层架构,存储引擎,事务机制差异显著,关键性能指标(如锁机制、事务吞吐量、副本同步延迟)的定义与采集方式完全不同。国产数据库多采用分布式架构,其带来的跨节点事务一致性、副本同步延迟、脑裂风险等新型运行状态需适配的监控指标。在高可用场景下(如双活、两地三中心),需要监控更多与数据同步、故障切换相关的指标。例如,分布式事务的响应时间、数据同步的延迟等指标对于确保系统的稳定运行至关重要。这些指标的完善有助于及时发现潜在问题,减少故障对业务的影响。
综上,传统的监控指标可能无法全面反映国产数据库的实际运行状态,需要补充和优化监控指标以适应这些特性
1.2 监控工具的智能化
随着信创的推进,金融行业期望通过智能化手段提升运维效率。监控工具需要能够通过告警与事件管理、与现有知识库的关联,实现智能化运维。例如,通过机器学习算法对历史数据进行分析,提前预警潜在故障。这需要监控指标更加精细化和全面化,以便为智能化运维提供更丰富的数据支持。
1.3 支持国产数据库的SQL审计与优化
国产数据库在SQL执行效率和优化方面可能与传统数据库有所不同。监控工具需要能够对国产数据库的SQL语句进行实时审计,识别慢SQL语句,并提供优化建议。这不仅有助于提升数据库性能,还能确保数据的安全性和合规性。因此,监控指标需要涵盖SQL执行时间、资源消耗等关键指标。
1.4 监控工具的集成与兼容性
金融行业在信创过程中,往往会同时使用多种国产数据库,这就要求监控工具能够兼容这些不同类型的数据库,实现统一的监控管理。而历史上,金融行业大多已经建立了较为完善的监控体系,在引入国产数据库时,企业希望能够在现有监控体系的基础上进行扩展,而不是完全推倒重建。因此,监控工具需要具备良好的集成能力,能够无缝对接现有的监控系统,确保监控数据的连续性和一致性。
随着金融行业逐步采用云原生技术,数据库监控工具需要支持容器化部署和微服务架构。云原生环境下,数据库的部署和运行方式更加灵活,监控工具需要能够动态调整监控指标,适应容器的快速启动和销毁。这要求监控工具不仅兼容传统架构,还要能够与云原生平台(如Kubernetes)无缝集成。
2 信创数据库的核心监控指标
信创数据库的核心监控指标应涵盖性能、高可用性、资源使用、SQL审计与优化、日志监控、容量规划与性能预测、安全与合规性以及云原生与分布式等多个方面。这些指标有助于金融行业全面监控信创数据库的运行状态,及时发现和解决问题,确保数据库的高效、稳定和安全运行。
以下是提炼出的部分核心关键指标:
2.1 性能指标
CPU使用率:监控数据库服务器的CPU使用情况,确保其在合理范围内运行。
内存使用率:监控数据库服务器的内存使用情况,避免内存不足导致性能下降。
磁盘I/O延迟:监控磁盘读写操作的延迟,确保数据读写效率。
网络带宽使用率:监控网络带宽的使用情况,确保数据传输的高效性。
SQL执行时间:监控SQL语句的执行时间,识别慢SQL语句并进行优化。
事务处理时间:监控事务的处理时间,确保事务的高效执行。
锁等待时间:事务阻塞导致的等待时长,尤其关注国产数据库特有锁机制。
TPS(事务吞吐量):每秒处理的事务数,反映数据库事务处理能力。
QPS(查询吞吐量):每秒执行的SQL语句数,衡量查询负载。
RT 99响应时间:99%请求完成的时间,定位长尾问题。
缓存命中率:数据库缓存(如InnoDB Buffer Pool)命中率,需保持>90%以优化性能。
2.2 高可用性指标
数据同步延迟:监控数据在不同节点之间的同步延迟,确保数据一致性。
故障切换时间:监控故障切换的时间,确保高可用性解决方案的有效性。
主备节点状态:监控主备节点的运行状态,确保高可用性架构的稳定性。
集群健康状态:监控数据库集群的整体健康状态,及时发现潜在问题。
2.3 资源使用指标
磁盘空间使用率:监控磁盘空间的使用情况,避免磁盘空间不足。
连接数:监控数据库的连接数,确保连接数在合理范围内。
缓冲池命中率:监控缓冲池的命中率,优化缓存策略。
线程池使用率:监控线程池的使用情况,确保线程资源的合理分配。
2.4 SQL审计与优化指标
慢SQL语句:识别执行时间较长的SQL语句,进行优化。
SQL执行计划:监控SQL语句的执行计划,优化查询性能。
SQL资源消耗:监控SQL语句的资源消耗,优化资源分配。
2.5 日志监控指标
审计日志:记录所有DDL/DML操作,保留时间戳、执行用户、影响行数。
查询日志:分析高频SQL模式,识别潜在注入攻击。
事务日志:监控ACID合规性,确保事务完整性。
2.6 容量规划与性能预测指标
数据增长趋势:监控数据的增长趋势,进行容量规划。
性能预测:通过历史数据预测未来的性能趋势,提前进行资源调整。
资源利用率预测:预测CPU、内存、磁盘等资源的未来利用率,优化资源分配。
2.7 安全与合规性指标
数据访问权限:监控数据访问权限的变更,确保数据安全。
数据操作审计:监控数据操作行为,确保数据合规性。
安全事件:监控安全事件的发生,及时发现和处理安全威胁。
数据跨境传输:与境外系统的交互频次、数据量。
敏感数据访问:不同类型的敏感信息被非应用访问的频度。
特权账号的行为:DBA权限账号的非必要时间内的高危操作,如DDL语句。
2.8 云原生与分布式指标
容器资源使用率:监控容器的CPU、内存、磁盘等资源使用情况。
容器运行状态:监控容器的运行状态(重启率、资源请求/限制匹配度等),确保数据库服务的正常运行。
3 信创数据库的监控方案落地途径
金融行业在数据库国产化背景下的监控方案和落地路径需要综合考虑业务需求、技术选型、监控指标设计、工具集成与兼容性以及智能化运维等多个方面。通过合理选择监控方案、精心设计监控指标、确保工具的集成与兼容性。
落地的途径主要关注以下几个方面:
3.1 监控方案的选择
监控方案由于偏向技术化,历史上业务高层的重视程度往往不够,因此一次性获得大量资金的注入是比较困难的。
监控的方案的选择,也如同信创数据的发展和选择相同。首先解决有无问题,再解决是否好用的问题。
在解决有无问题的时候,一些商采的方案,通常具有较高的成熟度和稳定性,能够快速部署和使用。同时,商业工具通常提供更全面的监控功能,支持多种国产数据库和高可用性架构。基本实现开箱即用。
但是随着统一监控兴起、智能化运维、定制化个性化监控指标、将不同源的数据指标进行统一监控。商业监控只针对部分支持的数据库、指标灵活度低,成本高,无法支持二次开发的劣势将慢慢显现。开源产品的优势将开始显现,能够根据自身业务需求和国产数据库特性进行深度定制,更好地满足特定业务场景下的监控需求。
但是在拥抱开源监控方案的时候,需要提前做好以下几点:
建设监控的技术开发和运营团队,并花费和投入一定的资金、人力和时间成本进行开发和维护。同时,自研工具的稳定性和可靠性需要经过长时间的验证,特别是在大规模、高并发的金融业务场景下,可能会出现性能瓶颈或稳定性问题。
综上所述,监控方案在选择时候,需要综合考虑业务需求、技术能力、预算等因素。商采方案具有开箱即用、知识积累丰富、整体性好、稳定性高等优势,但成本较高、灵活性有限;基于开源监控的自建方案成本低、灵活性高、有社区支持,但开发与维护成本高、稳定性与可靠性风险需要充分评估。
3.2 监控指标的设计
通用指标:普遍关注的监控指标例如CPU使用率、内存使用率、磁盘I/O延迟、网络带宽使用率、SQL执行时间、事务处理时间等。这些指标可以作为监控的基础框架,适用于大多数业务场景。
定制指标:针对特定业务需求和国产数据库特性,需要设计定制化的监控指标。例如,对于分布式数据库,需要监控数据同步延迟、分布式事务成功率等指标;对于高可用性架构,需要监控主备节点状态、故障切换时间等指标。
3.3 定制化与标准化的选择
金融行业运维监控的标准化与定制化的优先级,具体还是需结合本身企业的特性、技术成熟度及监管要求综合去抉择。
1、标准化优先的核心逻辑
(1)成本与效率优势
标准化工具经过市场验证,开发成本分摊后价格更低,部署周期短。功能成熟,部署与实施周期较短,适合快速上线需求。且有成熟的技术支持与维护体系,减少企业负担,能够尽快产生监控成效。
(2)技术兼容性与生态支持
标准化工具通常支持主流信创技术栈,且经过多场景验证。这符合金融行业对技术自主可控的迫切需求,避免了重复“造轮子”的风险。同时,标准化工具能够更好地融入信创生态,减少技术适配的复杂性。
(3)监管合规性保障
金融行业受严格监管,标准化工具更易通过合规认证(如满足《中国银行业信息科技“十三五”发展规划》对自动化运维比例的要求),降低合规成本。
2、定制化的必要补充场景
尽管标准化是基石,但金融行业的特殊性需要定制化补充:
(1)异构环境适配
信创生态中,不同厂商的硬件/软件兼容性尚待完善,需要定制化适配。例如,某银行信创改造后,OA系统与原有监控平台无法对接,需要定制日志接入模块以实现数据的无缝对接。
(2)复杂业务场景监控
分布式架构下,交易链路长、依赖关系复杂,标准化工具难以捕捉全链路性能瓶颈。此时需要定制根因分析算法,以实现更精准的性能监控和问题定位。
(3)安全与合规升级
金融数据敏感,需要定制加密传输、权限管控等模块,以满足《数据安全法》等监管要求。定制化工具可以更好地适应企业对数据安全和隐私保护的特殊需求。
3、实施建议:标准化+定制化协同
(1)分阶段推进
短期:优先部署标准化工具(如Prometheus、Zabbix等),覆盖基础监控,快速搭建监控体系。
长期:基于标准化数据底座,逐步叠加定制化功能(如分布式链路追踪、异构环境适配),以满足复杂业务场景的需求。
(2)平衡成本与灵活性
采用“标准化工具+定制化插件”模式,既保证基础监控的统一性,又支持特定业务场景的扩展。这种模式能够在成本和灵活性之间取得平衡,确保监控体系的高效性和适应性。
(3)关注技术演进
信创技术迭代迅速,需定期评估标准化工具的适配性,避免过度定制化导致未来升级困难。企业应保持对新技术的关注,及时调整监控策略,确保监控体系的长期有效性。
4、企业规模与技术能力的考量
对于中小型金融机构,优先选择标准化:预算有限且需求迫切,标准化工具兼容性高,可以快速完成基础性能监控和日志分析功能搭建,缩短上线周期,分摊开发成本。后期运维时候,标准化产品提供持续技术迭代和问题修复,降低企业自身技术团队压力。
对于大型金融机构,有条件的情况下,建议有限选择定制化,需针对核心系统设计高度契合业务逻辑的监控方案,长期成本效益显著,可以避免后期因标准工具功能不足导致的重复开发。
5、行业建议
4 信创数据库的监控的设计逻辑、技术选型、功能、性能、服务的要求
监控设计逻辑与技术选型需综合考虑功能需求、性能指标和服务要求,以确保系统能够高效运行并满足业务目标。通过分层监控设计、数据流与链路追踪、基于场景的监控策略、可视化与告警等功能设计,结合合适的监控工具、数据库性能监控工具、日志监控工具和告警与通知工具,可以构建一个高效、稳定、可扩展的监控体系。同时,还需关注技术架构的合理性、运行性能的可持续性以及监控功能的全面性和可扩展性,确保监控体系的长期有效性。
4.1 设计逻辑
(1)分层监控设计:
基础设施层:监控服务器、存储设备、网络等硬件资源,主要指标包括CPU、内存、磁盘I/O、网络带宽、延迟等。
操作系统层:监控操作系统层面的资源使用情况,主要指标包括进程状态、文件系统使用率、系统日志等。
数据库层:监控数据库实例的运行状态和性能,主要指标包括QPS/TPS、响应时间、连接数、锁等待、缓存命中率等。
应用层:结合业务场景,监控数据库对上层应用的支持能力,主要指标包括慢查询、事务失败率、热点数据访问等。
(2)数据流与链路追踪:
能对数据库的请求路径进行全面追踪,包括客户端请求、中间件处理、数据库执行、存储写入等环节。
借用分布式追踪工具记录每个请求的完整生命周期,帮助定位性能瓶颈。
(3)基于场景的监控策略:
日常运维:关注基础性能指标和资源利用率。
高并发场景:重点监控吞吐量、响应时间和连接池状态。
灾备切换:实时跟踪主从同步延迟、节点健康状态和切换成功率。
容量规划:分析存储增长趋势、表空间利用率和分片分布。
(4)可视化与告警:
可通过仪表盘展示关键指标的趋势图和实时状态。
可设置动态阈值,避免误报和漏报。
支持多渠道告警(短信、邮件、微信、即时通讯工具)。
提供根因分析建议,帮助快速解决问题。
4.2 技术选型
(1)监控工具:可选Prometheus(性能监控)、Zabbix(综合监控)、Grafana(数据可视化)等,支持多数据源接入与灵活告警。
(2)数据库性能监控:建议使用数据库自带工具实施性能监控
(3)日志监控:通过ELK(Elasticsearch、Logstash、Kibana)或Graylog分析数据库日志,发现潜在问题。
(4)告警与通知:集成告警工具如短信、邮件、微信、即时通讯工具等,确保异常及时通知。
技术架构上要避免对目标数据库有性能甚至可用性上的影响,一般采用无代理的模式,因为监控的目的是追踪数据库运行状态,如果监控本身还要跟业务争抢较多的资源,甚至引起不必要的运行故障,那就完全脱离了监控的初衷。
4.3 功能、性能、服务的要求
(1)功能要求:
全面覆盖:监控需覆盖数据库性能指标(如CPU、内存、磁盘I/O、连接数)、SQL性能(如慢查询、锁等待)、数据一致性(如主从同步延迟)、异常告警(如连接断开、数据丢失)等。
实时性与告警:设计实时监控机制,通过阈值、趋势分析等手段,及时发现异常并告警。
可扩展性:支持多数据库类型及多实例监控,满足行业扩展需求。
数据可视化:通过仪表盘、趋势图等展示监控数据,便于运维人员分析与决策。
(2)性能要求:
低资源消耗:监控工具需低资源消耗,避免对数据库性能造成额外负担。
高并发支持:支持高并发数据采集与分析,确保在高负载下仍能稳定运行。
(3)服务要求:
高可用性保障:监控数据存储需采用多副本机制,主备监控节点间需实现心跳检测与自动切换,避免监控盲区。
智能化服务:提供API接口与运维平台无缝集成,支持自定义监控模板导入。
7×24小时监控:提供不间断的监控服务,支持故障自愈与自动化运维,提升服务稳定性与可用性。
4.4 其他注意事项
(1)技术架构:避免对目标数据库有性能甚至可用性上的影响,一般采用无代理的模式。
(2)运行性能:充分考虑未来的数据库监控纳管需求,保障在3-5年内,监控平台能够很好地支撑新增数据库纳管需要,因此,要求平台在基础架构上具备可扩展能力。
5 信创数据库监控工具
5.1 监控工具分类及特点
数据库自带监控工具:主流监控功能齐全,但定制化、集成能力弱,美观度、通用能力欠佳,对自身数据库监控粒度细、运维管理功能全,不过对其他数据库兼容性差。
开源监控工具:初期免费,不过要求具备一定研发规划能力。
第三方监控工具:兼容性良好,可兼容多种数据库,定制化程度高且有规划经验,只是初期投入成本较高,适用于中大型企业和业务系统复杂的场景,能节省运维人员学习成本,但监控指标受数据库提供的指标制约。更多的还是基于运维经验提供一些场景化的指标分析能力。
5.2 监控工具集成策略
与运维平台集成:通过API同步数据库实例信息到CMDB实现资产自动化管理。
与云服务平台集成:例如在AWS/Azure环境中,分别使用CloudWatch或AzureMonitor采集数据库指标,再通过Prometheus远程读写功能统一存储;使用Datadog等工具实现混合云环境下不同数据库性能数据的统一展示。
与开发工具链集成:在CI/CD流水线(如Jenkins/GitLab CI)中嵌入数据库健康检查;利用ELK Stack收集数据库日志,结合监控工具(如Prometheus)进行故障关联分析。
通用策略要点:构建统一监控平台集中管理分析数据;根据数据库类型和业务需求组合使用多种工具;借助API将监控数据集成到企业相关系统;合理设置告警阈值和通知机制;利用工具实现数据可视化辅助分析决策。
5.3 监控工具智能化发展
(1)实时监控与提前预警
实时监控需兼顾采样频率与系统性能。高频率采集虽能及时发现故障,但会产生大量数据,加重数据库处理负担,还可能影响目标数据库性能;低频率则易导致故障漏检。
解决办法是依据系统重要性和告警指标级别定制采样频率,同时采用时序数据库存储处理监控数据。提前预警需精准制定告警规则,这要求运维人员深入了解数据库运行机制,像 SQL 执行计划变化、空间使用量增长趋势等都是制定规则的关键依据。
借助机器学习算法分析历史数据,构建正常行为基线,实时比对检测异常,实现提前预警。同时,根据业务变化和历史数据动态调整预警规则与阈值,提升预警的准确性和及时性。
(2)容量规划与性能预测
通过监控工具采集存储、性能、负载等关键指标,如磁盘使用率、查询吞吐量、活跃连接数等。利用监控工具的历史数据功能,分析指标变化趋势,包括空间使用率、性能波动、资源利用率等趋势,从而预测未来存储空间需求和性能走势,以便提前规划资源扩展。
一些信创数据库统一管理平台能自动采集指标信息,基于算法和基线预估剩余容量使用天数和性能变化,结合监控数据预测未来性能,为容量规划和性能优化提供有力支持。
(3)AIOps 在数据库运维中的应用
AIOps 可实现告警问题智能诊断、SQL 性能智能优化、巡检报告智能分析、智能问答辅助、容量智能规划等功能。例如在 SQL 审核场景中,AI 标记高风险语句后由 DBA 确认,构建“AI 建议-专家审核-自动执行”闭环,提升运维效率。
AIOps 对数据质量、算法性能和人工经验协同要求较高。知识图谱构建依赖大量知识运维点积累,前期准确性和质量可能欠佳,公域推理分析存在消极关联展示问题,需要持续迭代升级。
目前 AIOps 处于发展阶段,在数据库领域多为探索应用,未来将与人工经验深度融合,共同推动运维效率提升。
(4)告警与知识库关联智能化
在平台建设与关联方式:建设事件管理平台,将监控工具发现的故障经事件分析后同步至 IT 知识库。利用集中监控平台分析历史告警信息,关联事件辅助智能诊断。通过将知识库索引项与监控工具监控项关联,在告警触发时匹配知识点,提供解决方案。
在责任方推送与闭环管理:金融业利用 CMDB,通过告警信息中的 IP 地址匹配责任方并推送告警。监控工具自动生成包含告警信息、处理建议等内容的事件单,根据优先级和责任方,通过多种渠道推送给相关人员。借助事件管理平台跟踪处理进度,实现问题闭环,并通过复盘优化告警规则和知识库。
5.4 云原生数据库监控工具发展演进路线
云原生数据库监控工具的架构演进路径从传统的单体架构逐步演进到微服务架构,支持容器化部署和多云环境,具备高可用性和弹性伸缩能力,并结合AI/ML技术实现智能化监控。与传统监控工具相比,云原生监控工具在部署方式、数据采集、分析能力、架构弹性和多云支持等方面有显著优势。通过选择合适的监控工具、建立多维度监控模型、引入机器学习算法、优化监控系统性能,并结合人工经验,金融机构可以实现从被动监控到主动预警的转变,提升运维效率和系统稳定性。
架构模式转变:从传统的单体架构转向微服务架构。微服务架构支持容器化部署,各服务可独立开发、部署和扩展,使工具具备高度灵活性和扩展性,能更好地适应多云和混合云环境,满足不同业务场景需求。
高可用性与弹性伸缩:应提供容灾、备份、恢复等高可用性功能,保障数据安全可靠。同时,能根据业务需求灵活调整数据库资源配置,实现资源的按需使用和弹性伸缩。
多数据库引擎支持:应支持多种流行的数据库引擎,适应各种复杂的数据库环境,满足不同场景下对不同数据库的监控需求。
智能化监控升级:结合 AI/ML 技术,不仅能实时采集和分析数据,还能预测性能瓶颈和潜在故障,提供智能化建议,显著提升数据监控的实时性、准确性和智能化水平。
6 信创数据库监控工具的发展趋势
6.1 智能化运维的深化
未来,监控工具将更加智能化,通过AI和机器学习技术实现故障的自动诊断和修复。同时,监控工具将与知识库深度集成,提供更丰富的运维支持。
6.2 云原生架构的支持
随着金融行业对云原生技术的逐步采用,监控工具需要支持容器化部署和微服务架构。这将有助于提高监控工具的灵活性和可扩展性。
6.3 国产数据库的深度适配
7 结论
信创背景下,金融行业对数据库监控工具的需求日益增长。监控工具需要在监控指标、智能化运维、SQL审计与优化、集成与兼容性等方面不断提升。同时,监控工具的市场和技术现状仍存在不足,需要进一步发展。未来,监控工具将朝着智能化运维、云原生架构支持和国产数据库深度适配的方向发展,以满足金融行业的信创需求。
董生 某金融机构CIO
研讨贡献者(积极参与研讨、分享实践心得):
闫昕 某银行 数据库专家
魏大鹏 某保险 数据库架构师
毛大成 某证券 资深数据库工程师
HXC 某商业银行 技术架构师、数据库专家
阳文灿 某股份制银行 资深数据库工程师
*本文部分内容引用了以上协作专家于twt社区线上同行交流活动中发表的观点,详细专家探讨情况请参考:
https://www.talkwithtrend.com/Activity/index/op/question/id/2257
支持社区支持本文同行观点,请点赞、转发或点击“♡”
欢迎点击文末阅读原文,可以直接看到社区中本文中可能不包括的的全部信息和最新更新
欢迎关注社区 “监控”相关内容,了解最新行业同行专家的分享和大家的观点。地址:https://www.talkwithtrend.com/Project/159145
长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场
点击下方↙↙↙阅读原文,更丰富,更精彩


