今天分享的是:王霖:传统大型国企如何实施IT运维SRE转型
报告共计:34页
我将结合你提供的资料,从北京移动的运维模式转变、银行SRE团队建设等方面,梳理出不同行业在运维领域的变革与实践,为你总结核心内容。
在数字化转型浪潮下,各行业在IT运维领域积极探索创新,以提升系统稳定性、效率和业务连续性。北京移动的实践尤为突出,其从传统运维向智能运维转型,成效显著。
北京移动起初使用开源软件搭建基础自动化运维系统,虽实现脚本和文件批量自动化,但存在配置数据覆盖不全等问题。为突破困境,北京移动携手嘉为蓝鲸打造智能运维平台。该平台采用“平台 + 应用”模式,以PaaS平台融合公共能力支撑5大场景应用,如配置管理CMDB、IT监控告警等,且具备良好扩展性。
在运维效能提升上,北京移动成绩斐然。通过构建CMDB,实现云运维资产数据集中管理,不同云平台创建丰富模型并完成大量资源接入与数据采集;基于平台强大能力,集成现有监控平台,实现对各类设备及应用的全面监控告警,对告警进行闭环管理,提升处理效能;完成日志监控数据告警配置,通过网络设备日志分析保障网络健康;实现巡检自动化,自定义巡检脚本和计划,生成可视化报告,提前发现隐患;打造报表制作工具,实现数据可视化,帮助运维人员全面掌握IT资源运行状态。
此外,北京移动构建多维协同智慧运维体系。以SRE运维体系为基础,搭建多维协同智慧运维韧性矩阵,依据五级业务连续性成熟度标准,从组织、标准、场景、能力四方面,分事前、事中、事后构建高韧性能力支撑矩阵。同时,成立统一指挥的运维组织,建立“四位一体”运维保障体系。实践中沉淀多项关键能力,如构建混沌工程基础平台,通过主动注入故障演练复盘,提升系统弹性与韧性。未来,北京移动将引入AI、完善混沌场景等,追求业务连续性目标。
金融行业的银行也面临运维转型挑战。传统银行运维组织分工明确但隔离,依赖人工操作,自动化和流程管理有限,重点关注系统稳定性。而SRE组织强调跨职能协作,开发与运维紧密合作;以自动化驱动,减少人工干预;通过服务级别指标和目标量化管理系统可靠性;进行根因分析与持续改进,避免故障重复发生;利用错误预算平衡创新与可靠性。银行组建SRE团队需分阶段进行,包括启动与规划,明确方向、安排人员;核心能力建设,打造关键能力与工具体系;SRE模式推广,扩大覆盖范围、推动文化落地,并通过成果评估持续优化,关注SLO达成率、故障恢复时间等指标。
恒生电子与中国信通院发布的《证券行业分布式核心系统SRE运维白皮书》指出,证券行业分布式核心系统的SRE运维服务体系可从服务质量度量、观测指标、流程管理、稳定性运营、组织管理五方面建设,以推动金融机构IT运维数智转型。 总的来说,各行业在IT运维上不断探索创新,通过构建新体系、引入新技术,提升运维水平,以适应数字化时代的发展需求。
如果你对总结中的某个行业案例或具体技术应用感兴趣,希望我进一步展开介绍,欢迎随时告诉我。
以下为报告节选内容
展开全文
返回搜狐,查看更多