
笔者所在的公司规模相对较小,成立之初,只有十几台电脑,需要访问网络的电脑更是少之又少,通过VPN与总公司之间进行相关数据的传输。因为总公司的规划我们这里就是很小规模的,因此网络设备相对来说都较为初级,网络拓扑如图1所示。
然而公司两年多的发展远远超出了总公司的预期,现在公司已经有近100台电脑,需要访问网络的电脑就超过了30台。最近生产线上又引进总公司的新产品,总公司要求生产线上的系统同样使用总公司的,通过VPN连接至总公司的服务器。这时问题就来了,之前通过防火墙建立VPN,而我们所采用的Nokia IP40是只支持16个节点的版本,显然已经不能满足要求了。经过一番需求分析、选型之后,决定使用Juniper SSG5(以下简称SSG5)防火墙替代Nokia IP40,从而满足当前及未来几年的应用需求。
掉以轻心 留下祸患
因为只是简单地更换一下防火墙,并非什么大工程,所以对整个工作没有花多少心思去准备及做故障预测分析。防火墙到货之后,提前将相关参数配置完毕,在中午大家吃饭的时间进行了硬件的更换。测试网络,网页可以打开,邮件可以发送,整个硬件更换工作五分钟不到,以为就此完成,便去餐厅吃饭。
因为相对来说,SSG5和Nokia IP40绝对不是一个级别的设备,对SSG5我们还是比较放心的,所以在测试网络连通之后,也没有进行更多的测试就暂时忙其他的工作了。没想到下午上班后,办公桌上的电话就开始响个不停,全部是反映网页打开慢、邮件发送慢。
因为是刚刚更换了防火墙才出现这种情况,我们初步判断是防火墙出了故障。连上防火墙,查看防火墙设置,没有任何问题,让防火墙供应商的技术人员确认设置也没有问题。既然设置没有问题,那防火墙硬件有问题的可能性就比较大了。在客户端测试也证明了网络确实存在问题,因为丢包现象严重。
按照逐级排查的原则,也听从防火墙供应商技术人员的建议,决定从网络入口开始排查。使用一台笔记本电脑直接连接外网入口,在电脑上配置好IP、网关及DNS地址,进行连通性测试,没有问题;对电信网关及其他外网地址进行Ping包测试,无丢包现象。
既然电信入口没有问题,第二步就是进行路由器以下部分的测试了。将防火墙的连接线直接连接电脑,设置好相关参数,再次Ping电信网关、其他外网地址,发现丢包同样严重。
这时的问题就相当蹊跷了。从测试的结果来看,是路由器出了问题,因为对电信的网络入口测试没有问题,中间加了个路由器就有问题,很明显路由器出问题了,只是这次故障太离奇了。虽然说路由器也有一定的寿命,但早不坏、晚不坏,偏偏选择在更换防火墙的这一天坏。
现在的关键问题就是确认路由器的故障了。从供应商那里拿回一个路由器做替换测试,发现更换路由器之后,网络正常,看样子路由器故障是千真万确的事了。
跟供应商商定,他们提供的路由器让我们先使用,等我们解决路由器问题之后再还给他们。再次接上防火墙,以为问题会就此告一段落,接下来的任务是如何解决路由器问题,维修还是更换新的。
陷入怪圈 逐级排查
没想到通知网络恢复后没几分钟,办公桌上的电话又响了,反映问题和之前一样,还是网页打开慢、邮件发送慢。再次从客户端测试,Ping电信网关及其他外网地址,发现这次仍然存在严重的丢包现象。
这下真是麻烦了。刚刚换的路由器又有问题?难道防火墙也有问题?把防火墙再次拿下,使用笔记本电脑直接连接路由器进行测试,网络正常。无奈之下,将之前换下的Nokia IP 40重新连上,再次测试网络,发现仍然有丢包现象,并且从防火墙后面访问路由器,进行测试也有问题。
至此,故障似乎成了一个怪圈:路由器没问题,防火墙是使用正常的Nokia IP 40,经过今天的变动之后统统有问题了?最后决定做一个最小网络测试,使用Cisco 1721连接SSG5,然后再在SSG5的后面连上一台PC(如图2),从PC访问路由器,进行大量数据包测试,发现一切正常。
路由器没变,防火墙没变,PC没变,为什么在机柜中测试就有问题,而拿出来就没有问题了?两个环境中唯一不同的只剩下网线了,按理说网线出问题的可能性应该很小。因为为了保证设备之间的连接有保障,机柜中使用的全部是机器压制的线而非手工制作的网线。抱着试试看也是十分无奈的心态,把路由器连接防火墙的网线换掉,再次测试,发现网络终于正常了。
机器压制的线为什么会出问题呢?再次回忆更换防火墙时的情形,当时因为网线被扎线带扎在机架上,连接防火墙不是很好连,当时就拽了一下,不想这一拽就引发了这么一场大麻烦。
为了确保这次网络没有问题,进行了多项大数据量的测试,最终确认网络正常,这时下班的铃声都已经响起了,没想到一根网线引发的故障整整折腾了一个下午的时间。
总结
虽然逐级排查、步步替换是早已牢记于心的原则,但常常因为一时的忙乱,在测试网络,解决故障的过程中,我们容易忘了原则。如果当时我们够冷静,逐级排查,并且每一级的检测对网线也进行替换测试,故障应该很快就解决了,但是因为过于相信机器压制的线了,从而给自己增添了不必要的麻烦。因此在这里把这次故障经历写出来,希望给广大网络管理员朋友提个醒,遇到网络故障时不能因为忙,就乱了自己的思路,一定要冷静、细心,逐级排查,从而让我们在解决故障时少走弯路,甚至事半功倍。 |