1、运维人员面对的三大挑战:大活动、大变更、大故障;每种情况出现,都是对运维能力强弱的一次考验。
2、凡事预则立,不预则废——大活动前,业务侧应该给出业务量相关的运营指标,而运维人员应按照历史性能数据、容量模型和业务架构,评估出相关的资源需求,看看是否需要早作扩容。
3、不怕一万,就怕万一——运维提前做好基础能力的评估和扩容后,压力测试和应急预案也是必须要准备的工作。
4、随着运维工作越来越纷繁复杂,必须要有更多的自动化流程来支撑,例如扩容工作就应该基于CMDB、监控卺肿蓦艚系统、运维管理平台实现自动化的操作——监控系统发现相关环号俗劭蜾节资源存在瓶颈后,到CMDB获取该环节对应的其他资源以及闲置资源情况后,自动进行新计算和存储资源的分配、网络资源的配置、应用程序的部署、配置数据的同步以及新资源的上线;同时将变化过程触发到流程管理系统,变化结果更新到CMDB。
5、变更后,应该落实自动化的测试检验——相关的业务流程是否能够正常跑通相关的系统资源指标是否有异常变化
6、运螗徇吼笊维的柔性保护——对于计划内或者计划外的业务峰值,进行延迟处理甚至抛弃访问请求,从而保障业务能部分正常。毕竟高压力下系统访问繁忙,部分访问慢点或者重试几次能访问成功,总好过所有人被卡死。