1、当IT系统发生故障后,一般的原则是先抢通再抢修,也就是要优先恢复业务。
2、业务抢通,故障临时恢复后,还需要对故障发生的原因进行进一步分析。
3、通过深入全面的分析,希望能够找到导致故障发生的根本原因,从而避免后续重复出现类型故障。
4、故障分析的过程,可以首先从硬件层面开始,检查硬件状态及相关日志。
5、然后到操作系统的运行情况,看看操作系统日志中是否有什么异常的信息。
6、接下来是分析操作系统的性能数据,看看CPU、内存、IO等相关数据是否存在突变。
7、最重要的是从应用和数据库层面,检查是否存在BUG或者配置异常的问题。