返回目录:word文档
上次分享网络故障时,有小伙伴私信,故障报告如何书写?这确实是个必须学会的技能。我们都说,、:工程师辛辛苦苦搬砖,抵不过Leader的一页PPT和一篇项目总结报告。日常中能干的很多时候比不过会说的会写的,要不然怎么能有"一起为梦想窒息"的贾老板呢:)
我们今天就一次真实的网络故障,抛砖引玉,来分享我实际工作中故障报告的书写。我们先来讲述故障处理过程,然后再书写故障报告:
1. 背景:
公司园区网设备升级,核心2台C9407做VSS虚拟机框;
园区共10层,每层有5台接入交换机AcessSwitch,上行trunk到楼层Agg汇聚交换机,但汇聚交换机只做L2的设备汇聚,通过port-channel到上行VSS的2台C9406。其中9,10层刚由供应商更换完设备。
当晚由于大厦电力故障,短暂断电并恢复后,大厦网络中断,核心设备无法登录,部分无线AP掉线。
2. 故障处理经过:
就像电视里的恐怖片一样,不幸的故障总爱出现在周末、夜晚和假期。某周五的夜晚,看完最强大脑躺在床上的我,正在思索如何能像电视里的他们一样优秀,手机微信及邮件相继弹出报警:C9407-1 cpu利用率超过70%,C9407 icmp timeout;
30秒起床、开机、连接SSLVPN(SSLVPN在IDC,并通过MSTP专线至园区网),发现已经无法通过IDC远程登录到园区网核心C9407。这时同组的小伙伴微信分享消息说晚上刚刚断过电,猜测是不是还是电力问题。但我心里大概知道答案,既然报了CPU使用率高,十有八九是环路、广播风暴导致;
在现场人员告知电力恢复后,我已经在前往公司的TAXI上,到达公司立马console到C9407,show logging不出所料,出现MAC Flapping,并发现该接口是下联到9、10层汇聚交换机的物理接口;
登录到9、10层汇聚交换机发现port-channel已经丢失配置,判断供应商做完更换和配置后,未保存配置,导致双上联,环路,配置port-channel,核心及各交换机恢复正常工作;
登录无线控制器查看无线状态,发现部分AP未注册上来,继而检查各楼层POE交换机,发现由于配置bpud但未配置recovery,导致连接AP的接口errodisable,手动shutdown no shutdown恢复,整体网络恢复;
3、故障原因及排查处理过程非常简单。继而就是及时的故障报告并mail给相关负责人以下:为我当时书写的故障报告(头条上传的word没有原格式,故而截屏,有需要原版的小伙伴可以留言或私信):