AIOps智能故障管理在阿里巴巴集团的成功实践.pdf
《AIOps智能故障管理在阿里巴巴集团的成功实践.pdf》由会员分享,可在线阅读,更多相关《AIOps智能故障管理在阿里巴巴集团的成功实践.pdf(29页珍藏版)》请在文库网上搜索。
1、AIOps智能故障管理在阿里巴巴集团的成功实践高级 技术 专家 王肇刚 (梓弋 )企业研发云专场阿里巴巴故 障治理业务流程及挑战智能运维实战 之异常 检测和根因 推荐AIOps智能 运维解决 方案万笔 /秒订单量双 11背后的巨大稳定性 挑战32.5万笔 /秒支付量25.6阿里业务的多样和复杂给稳定性带来挑战业务数量巨大50+BU40000+ 应用程序业务形态差异较大电商、金融、云计算、物流、文娱、社交 业务关联复杂用户行为对业务的影响应用程序之间的链路复杂线上故障需要统一的治理 机制业务故障统一发现跨 BU故障协同 处理故障的影响面和根因需要统一收口和推送故障快速恢复需要统一的机制阿里巴巴全
2、局故障治理 流程故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练业务流程业务痛点传统监控系统误报漏报较多监控维护成本较大故障等级定义差异较大判断条件繁多千万级别的运维事件,哪些与业务故障相关?跨 BU的应用依赖复杂,如何梳理追溯快速恢复场景稍纵即逝,如何实时决策触发切换?我们引入了智能运维阿里巴巴全局故障治理 流程故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练故障发现准确率 40% 80%故障通告耗时 1分钟5分钟根因推荐 依赖人的经 验 系统自动推荐可疑事件智能运维之时间序列异常检测业务指标异常检测的业务 背景“ 淘 宝交易量下跌%X是 Pn故障 ” “ Pn淘宝 淘宝交易创建下跌 X%”故障等级定义 业务指标监控项 (时间序列) 异常点 故障通告
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIOps 智能 故障 管理 阿里巴巴 集团 成功 实践