某油田网络故障分析报告
一、网络拓扑图示意图

二、网络存在问题
big400出口在网络高峰期时上网速度慢、严重丢包,但big400直连网段之间用户通信正常。
三、检查信息中心网络的健康状况发现的问题
1、Big400与直连出口设备NetScreen100之间的端口问题
1、Big400与直连出口设备NetScreen100之间的端口问题
Big400端口port3:15状态:auto off,100M,full;
出口防火墙NS100端口trust状态:auto on,100M,half。
两边状态不一致,是造成大流量丢包的原因之一。
目前已将Big400和Netscreen100之间的端口状态设为100M,全双工。
2、Big400、NS100路由配置问题
Big400作为全网的核心交换,上面存在全网路由信息,包含:
Big400作为全网的核心交换,上面存在全网路由信息,包含:
172.16.0.0/24——172.16.31.0/24直连路由
默认缺省路由,下一跳指向NS100。
NS100作为出口设备,包含路由信息:
172.16.0.0/16(汇聚路由),下一跳指向big400
默认缺省路由,下一跳指向internet。
从上面两设备的路由配置,可以发现,当big400下连用户发wins报文(目的IP为172.16.255.255)或进行主机扫描(目的IP为172.16.32.0---172.16.255.255 )时,会造成报文在big400和NS100之间循环转发,直到TTL为0才将报文丢弃!因此,大量的垃圾报文拥塞big400与Netscreen之间的链路,而且NetScreen需要为这些报文做会话连接,加重了NetScreen的负载。


见下图,在Big400出口链路用协议分析仪sniffer捕获的报文:


以上Big400和NG100路由存在的问题,可以在Big400上添加一条汇聚路由172.16.0.0/16指向一个空接口来解决。因为,根据路由最长匹配原则,172.16.0.0/16网段中包含的具体路由如果在Big400上不存在,则会匹配到该汇聚路由,从而将相应报文丢弃,不再往NS100转发。消除了非法报文循环转发的隐患。
四、网络目前存在问题
以上两问题已得到解决。但是在网络高峰期,Big400出口仍有丢包。
以上两问题已得到解决。但是在网络高峰期,Big400出口仍有丢包。
怀疑NS100的处理能力有限所致。测试时抛开Big400,NS100直连用户在网络高峰期上网出现严重丢包。此时,重启NS100,网络一切恢复正常。9月14日晚上10:20左右重启NS100后,经过24小时监控,直到9月15日晚上11:00网络运行一切正常。在9月15日晚,网络高峰期(出口流量21Mbps),网络未发现异常。
