下面小编为大家整理了交换机中网络环路常见问题详解(共含10篇),欢迎阅读与借鉴!同时,但愿您也能像本文投稿人“marlboro7089”一样,积极向本站投稿分享好文章。
以太网中的交换机之间存在不恰当的端口相连会造成网络环路,如果相关的交换机没有打开STP功能,这种环路会引发数据包的无休止重复转发,形成广播风暴,从而造成网络故障,
一天,我们在校园网的网络运行性能监控平台上发现某栋搂的VLAN有问题——其接入交换机与校园网的连接中断。检查放置在网络中心的汇聚交换机,测得与之相连的100BASE-FX端口有大量的入流量,而出流量却非常少,显得很不正常。然而这台汇聚交换机的性能似乎还行,感觉不到有什么问题。于是,我们在这台汇聚交换机上镜像这个异常端口,用协议分析工具Sniffer来抓包,最多时每秒钟居然能抓到10万多个。对这些数据包进行简单分析,我们发现其中一些共同特征。
当时,我们急于尽快抢修网络,没去深究这些数据包的特征,只看到第1点就以为网络受到不明来历的Syn Flood攻击,估计是由一种新网络病毒引起,马上把这台汇聚交换机上该端口禁用掉,以免造成网络性能的下降。
故障排除
为了能在现场测试网络的连通性,在网络中心,我们把连接那栋大楼接入交换机的多模尾纤经光电转换器用双绞线连到一台PC上,并将其模拟成那个问题 VLAN的网关。然后,到现场找来大楼网管员,想让他协助我们尽快把感染了未知病毒的主机查到并隔离。据大楼网管员反映,昨天网络还算正常,不过,当时本大楼某部门正在做网络调整,今天上班就发现网络不行了,不知跟他们有没有关系。我们认为调整网络应该跟感染病毒关系不大。在大楼主配线间,我们把该接入交换机上的网线都拔掉,接上手提电脑,能连通网络中心的测试主机。我们确认链路没问题后,每次将剩余网线数量的一半插回该交换机,经测试没问题则如是继续下去,否则换插另一半,逐渐缩小怀疑有问题网线的数量。我们最终找到一条会引起问题的网线,只要插上这根网线,该大楼网络就会与模拟网关中断连接。经大楼网管员辨认,这条网线是连接昨天在做网络调整的那个部门的。他还说以前该部们拉了一主一备两条网线,应该还有一条,并亲自在那台交换机上把另一条找了出来。随意插上这两条网线中的一条,网络没问题,但只要同时插上,就有问题,哪有在一台交换机上同时插上两条网
线才会激活网络病毒的SYN Flood攻击的?这时我们倒是觉得这种现象更像是网络中有环路。我们到了那个部门发现有三台非管理型交换机,都是串在一起的,然而其中两台又分别通过那两条网线与接入交换机相连,从而导致了网络环路。显然是施工人员对网络拓扑不清楚,当时大楼网管员有事外出,就自以为是地把线接错了,从而造成了这起网络事故。原因找到就好办了,只需拔掉其中一条上联网线即可恢复网络连通。 经过一番周折,网络恢复了正常,但我们还一直在想,是什么干扰了我们的判断呢?
故障分析
一起典型的网络环路故障,用协议分析工具Sniffer抓了这么多的数据包,经过一番分析却没看出问题来。显然,第一眼看到大量的SYN包让我们产生了错觉,想当然地就以为是SYN Flood攻击。事后,我们就这起网络环路故障排除过程做了检讨,重新仔细地分析抓回来的这些数据包,据此解释一下前面提到这些数据包所具有的5个共同特征,以便今后遇到同类问题时能及时作出正确的反应。先看前4个特征:汇聚交换机是网络层设备,该大楼所属VLAN的网络层接口就设置在这台汇聚交换机上,出于实施网络管理策略的需要,对已注册或没注册的 IP地址都进行了MAC地址的绑定。TCP连接要经过3次握手才能建立起来,在这里发起连接的SYN包长度为28个字节,加上14个字节的以太帧头部和 20个字节的IP报头,由Sniffer捕获到的帧长度共为62个字节(不包含4字节的差错检测FCS域)。恰巧当时访问该VLAN的单播帧是来自外网的 TCP请求包,根据以太网桥的转发机制,通过CRC正确性检测后,因已做静态ARP配置,这台汇聚交换机会将该单播帧的源MAC地址转换成本机的MAC地址,其目的MAC地址依据绑定参数来更换,并重新计算CRC值,更新FCS域,经过这样重新封装后,再转发到那栋楼的接入交换机,
再看最后1个特征:网桥是一种存储转发设备,用来连接相似的局域网。这些网桥在所有端口上监听着传送过来的每一个数据帧,利用桥接表作为该数据帧的转发依据。桥接表是MAC地址和用于到达该地址的端口号的一个“MAC地址-端口号”列表,它利用数据帧的源 MAC地址和接收该帧的端口号来刷新。网桥是这样来使用桥接表的:当网桥从一个端口接收到一个数据帧时,会先刷新桥接表,再在其桥接表中查找该帧的目的 MAC地址。如果找到,就会从对应这个MAC地址的端口转发该帧(如果这个转发端口与接收端口是相同,就会丢弃该帧)。
如果找不到,就会向除了接收端口以外的其他端口转发该帧,即广播该帧。这里假定在整个转发过程中,网桥A、B、C和D都在其桥接表中查找不到该数据帧的目的MAC地址,即这些网桥都不知道应该从哪个端口转发该帧。当网桥A从上联端口接收到一个来自上游网络的单播帧时,会广播该帧,网桥B、C收到后也会广播该帧,网桥D收到分别来自网桥B、C的这个单播帧,并分别经网桥C、B传送回网桥 A,到此网桥A收到了该单播帧的两个副本。在这样的循环转发过程中,网桥A不停地在不同端口(这时已经不涉及上联端口了)接收到相同的帧,由于接收端口在改变,桥接表也在改变“源MAC-端口号”的列表内容。前面已经假定网桥的桥接表中没有该帧的目的MAC地址,网桥A在分别收到这两个单播帧后,都只能再次向除了接收端口以外的其他端口广播该帧,故该帧也会向上联端口转发。
就每个单播帧而言,网桥A重复前面提到的过程,理论上,广播一次会收到21个帧,广播两次就会收到22个帧,…,广播到第n次就会收到2n个帧。总之,网桥A照这样转发下去,很快就会形成广播风暴,这个单播帧的副本最终会消耗完100BASE-X端口带宽。尽管在这期间上联端口会有许多数据帧在相互碰撞而变的不完整,令Sniffer捕获不到,但可以想象得到这个单播帧的重复出现次数仍然会非常多。我们再次检查那些抓回来的数据包,几乎都发现有当时没有注意到的重复标志。按64字节包长来计算,以太网交换机的100BASE-FX端口转发线速可达144000pps。在这种网络环路状态下, Sniffer完全有可能每秒抓到10万多个包长为66字节的数据包。
基于上述理由,由于当时那4台交换机的桥接表中都没有该包的目的MAC地址,处于上游网络的这台汇聚交换机向该大楼发送了一个TCP请求包后,就会不断地收到由该大楼接入交换机转发回来的该TCP包的副本,而且数量非常地多(形成大流量),然而,它并不会把接收到的这些包重发回去;Internet 的网络应用是基于请求/应答模式的,只有发送/接收两条信道都畅通,才能进行端到端的通信。一旦本次网络应用中有一条信道被堵塞了,就会使得该应用因无法进行而结束。网络应用结束后,一般来说,发起请求一方不会就本次应用再次自动发出请求包。于是,在网络环路状态中普遍会有一条信道有大流量,另一条信道几乎没有流量的现象。因为VLAN有隔离广播域的功能,这些大流量不会穿越网络层,所以不会对汇聚交换机造成很大压力。事实上,由于这种网络环路是数据链路层上的故障,只涉及到源MAC地址和目的MAC地址,不管高层封装的是什么类型的包都有可能引起广播风暴。也就是说,当时用Sniffer抓到各种各样的数据包都是有可能的。
故障预防
校园网的接入层是面向用户的网络界面,有许多不可控的成分,情况很复杂,应由专人管理,也应在设备上给予可靠性保证。本搂接入交换机是可管理型的,有STP功能,其他交换机都是非管理型交换机,没有STP功能。本来事先在该接入交换机上配置了STP功能,这起网络事故是完全可以避免的,但不知何故没有这样做,事后再做只能权当“亡羊补牢”了。由此可见,即使接入交换机打开了STP功能,下游网络也会因某种原因构成环路,产生广播风暴,造成对上游网络本VLAN的冲击,故该接入交换机还应有广播包抑制功能,以便能将影响限制在局部范围内。对于下游网络的交换机同样有这些需求,只是成本问题而已。一句话,在网络故障排除时,技术和经验固然重要,但在平时就要注意维护网络的规范连接、落实基本的防范措施更为重要。
汇聚交换机有很多值得学习的地方,这里我们主要介绍关于汇聚交换机中网络环路的问题,以太网中的交换机之间存在不恰当的端口相连会造成网络环路,如果相关的交换机没有打开STP功能,这种环路会引发数据包的无休止重复转发,形成广播风暴,从而造成网络故障,
一天,我们在校园网的网络运行性能监控平台上发现某栋搂的VLAN有问题――其接入交换机与校园网的连接中断。检查放置在网络中心的汇聚交换机,测得与之相连的100BASE-FX端口有大量的入流量,而出流量却非常少,显得很不正常。然而这台汇聚交换机的性能似乎还行,感觉不到有什么问题。于是,我们在这台汇聚交换机上镜像这个异常端口,用协议分析工具Sniffer来抓包,最多时每秒钟居然能抓到10万多个。对这些数据包进行简单分析,我们发现其中一些共同特征。
当时,我们急于尽快抢修网络,没去深究这些数据包的特征,只看到第1点就以为网络受到不明来历的Syn Flood攻击,估计是由一种新网络病毒引起,马上把这台汇聚交换机上该端口禁用掉,以免造成网络性能的下降。
故障排除
为了能在现场测试网络的连通性,在网络中心,我们把连接那栋大楼接入交换机的多模尾纤经光电转换器用双绞线连到一台PC上,并将其模拟成那个问题 VLAN的网关。然后,到现场找来大楼网管员,想让他协助我们尽快把感染了未知病毒的主机查到并隔离。据大楼网管员反映,昨天网络还算正常,不过,当时本大楼某部门正在做网络调整,今天上班就发现网络不行了,不知跟他们有没有关系。我们认为调整网络应该跟感染病毒关系不大。在大楼主配线间,我们把该接入交换机上的网线都拔掉,接上手提电脑,能连通网络中心的测试主机。我们确认链路没问题后,每次将剩余网线数量的一半插回该交换机,经测试没问题则如是继续下去,否则换插另一半,逐渐缩小怀疑有问题网线的数量。我们最终找到一条会引起问题的网线,只要插上这根网线,该大楼网络就会与模拟网关中断连接。经大楼网管员辨认,这条网线是连接昨天在做网络调整的那个部门的。他还说以前该部们拉了一主一备两条网线,应该还有一条,并亲自在那台交换机上把另一条找了出来。随意插上这两条网线中的一条,网络没问题,但只要同时插上,就有问题,哪有在一台交换机上同时插上两条网
线才会激活网络病毒的SYN Flood攻击的?这时我们倒是觉得这种现象更像是网络中有环路。我们到了那个部门发现有三台非管理型交换机,都是串在一起的,然而其中两台又分别通过那两条网线与接入交换机相连,从而导致了网络环路。显然是施工人员对网络拓扑不清楚,当时大楼网管员有事外出,就自以为是地把线接错了,从而造成了这起网络事故。原因找到就好办了,只需拔掉其中一条上联网线即可恢复网络连通。 经过一番周折,网络恢复了正常,但我们还一直在想,是什么干扰了我们的判断呢?
故障分析
一起典型的网络环路故障,用协议分析工具Sniffer抓了这么多的数据包,经过一番分析却没看出问题来。显然,第一眼看到大量的SYN包让我们产生了错觉,想当然地就以为是SYN Flood攻击。事后,我们就这起网络环路故障排除过程做了检讨,重新仔细地分析抓回来的这些数据包,据此解释一下前面提到这些数据包所具有的5个共同特征,以便今后遇到同类问题时能及时作出正确的反应。先看前4个特征:汇聚交换机是网络层设备,该大楼所属VLAN的网络层接口就设置在这台汇聚交换机上,出于实施网络管理策略的需要,对已注册或没注册的 IP地址都进行了MAC地址的绑定。TCP连接要经过3次握手才能建立起来,在这里发起连接的SYN包长度为28个字节,加上14个字节的以太帧头部和 20个字节的IP报头,由Sniffer捕获到的帧长度共为62个字节(不包含4字节的差错检测FCS域),
恰巧当时访问该VLAN的单播帧是来自外网的 TCP请求包,根据以太网桥的转发机制,通过CRC正确性检测后,因已做静态ARP配置,这台汇聚交换机会将该单播帧的源MAC地址转换成本机的MAC地址,其目的MAC地址依据绑定参数来更换,并重新计算CRC值,更新FCS域,经过这样重新封装后,再转发到那栋楼的接入交换机。
再看最后1个特征:网桥是一种存储转发设备,用来连接相似的局域网。这些网桥在所有端口上监听着传送过来的每一个数据帧,利用桥接表作为该数据帧的转发依据。桥接表是MAC地址和用于到达该地址的端口号的一个“MAC地址-端口号”列表,它利用数据帧的源MAC地址和接收该帧的端口号来刷新。网桥是这样来使用桥接表的:当网桥从一个端口接收到一个数据帧时,会先刷新桥接表,再在其桥接表中查找该帧的目的MAC地址。如果找到,就会从对应这个MAC地址的端口转发该帧(如果这个转发端口与接收端口是相同,就会丢弃该帧)。
如果找不到,就会向除了接收端口以外的其他端口转发该帧,即广播该帧。这里假定在整个转发过程中,网桥A、B、C和D都在其桥接表中查找不到该数据帧的目的MAC地址,即这些网桥都不知道应该从哪个端口转发该帧。当网桥A从上联端口接收到一个来自上游网络的单播帧时,会广播该帧,网桥B、C收到后也会广播该帧,网桥D收到分别来自网桥B、C的这个单播帧,并分别经网桥C、B传送回网桥 A,到此网桥A收到了该单播帧的两个副本。在这样的循环转发过程中,网桥A不停地在不同端口(这时已经不涉及上联端口了)接收到相同的帧,由于接收端口在改变,桥接表也在改变“源MAC-端口号”的列表内容。前面已经假定网桥的桥接表中没有该帧的目的MAC地址,网桥A在分别收到这两个单播帧后,都只能再次向除了接收端口以外的其他端口广播该帧,故该帧也会向上联端口转发。
就每个单播帧而言,网桥A重复前面提到的过程,理论上,广播一次会收到21个帧,广播两次就会收到22个帧,…,广播到第n次就会收到2n个帧。总之,网桥A照这样转发下去,很快就会形成广播风暴,这个单播帧的副本最终会消耗完100BASE-X端口带宽。尽管在这期间上联端口会有许多数据帧在相互碰撞而变的不完整,令Sniffer捕获不到,但可以想象得到这个单播帧的重复出现次数仍然会非常多。我们再次检查那些抓回来的数据包,几乎都发现有当时没有注意到的重复标志。按64字节包长来计算,以太网交换机的100BASE-FX端口转发线速可达144000pps。在这种网络环路状态下, Sniffer完全有可能每秒抓到10万多个包长为66字节的数据包。
基于上述理由,由于当时那4台交换机的桥接表中都没有该包的目的MAC地址,处于上游网络的这台汇聚交换机向该大楼发送了一个TCP请求包后,就会不断地收到由该大楼接入交换机转发回来的该TCP包的副本,而且数量非常地多(形成大流量),然而,它并不会把接收到的这些包重发回去;Internet 的网络应用是基于请求/应答模式的,只有发送/接收两条信道都畅通,才能进行端到端的通信。一旦本次网络应用中有一条信道被堵塞了,就会使得该应用因无法进行而结束。网络应用结束后,一般来说,发起请求一方不会就本次应用再次自动发出请求包。于是,在网络环路状态中普遍会有一条信道有大流量,另一条信道几乎没有流量的现象。因为VLAN有隔离广播域的功能,这些大流量不会穿越网络层,所以不会对汇聚交换机造成很大压力。事实上,由于这种网络环路是数据链路层上的故障,只涉及到源MAC地址和目的MAC地址,不管高层封装的是什么类型的包都有可能引起广播风暴。也就是说,当时用Sniffer抓到各种各样的数据包都是有可能的。
交换机在企业网中占有重要的地位,通常是整个网络的核心所在,在这个 入侵风起云涌、病毒肆虐的网络时代,作为核心的交换机也理所当然要承担起网络安全的一部分责任。因此,交换机要有专业安全产品的性能,安全已经成为网络建设必须考虑的重中之中。安全交换机由此应运而生,在交换机中集成安全认证、ACL(Access Control List,访问控制列表)、防火墙、入侵检测甚至防毒的功能,网络的安全真的需要“武装到牙齿”。
安全交换机三层含义
交换机最重要的作用就是转发数据,在 攻击和病毒侵扰下,交换机要能够继续保持其高效的数据转发速率,不受到攻击的干扰,这就是交换机所需要的最基本的安全功能。同时,交换机作为整个网络的核心,应该能对访问和存取网络信息的用户进行区分和权限控制。更重要的是,交换机还应该配合其他网络安全设备,对非授权访问和网络攻击进行监控和阻止。
安全交换机的新功能
802.1x加强安全认证
在传统的局域网环境中,只要有物理的连接端口,未经授权的网络设备就可以接入局域网,或者是未经授权的用户可以通过连接到局域网的设备进入网络。这样给一些企业造成了潜在的安全威胁。另外,在学校以及智能小区的网络中,由于涉及到网络的计费,所以验证用户接入的合法性也显得非常重要。IEEE 802.1x 正是解决这个问题的良药,目前已经被集成到二层智能交换机中,完成对用户的接入安全审核。
802.1x协议是刚刚完成标准化的一个符合IEEE 802协议集的局域网接入控制协议,其全称为基于端口的访问控制协议。它能够在利用IEEE 802局域网优势的基础上提供一种对连接到局域网的用户进行认证和授权的手段,达到了接受合法用户接入,保护网络安全的目的。
802.1x协议与LAN是无缝融合的。802.1x利用了交换LAN架构的物理特性,实现了LAN端口上的设备认证。在认证过程中,LAN端口要么充当认证者,要么扮演请求者。在作为认证者时,LAN端口在需要用户通过该端口接入相应的服务之前,首先进行认证,如若认证失败则不允许接入;在作为请求者时,LAN端口则负责向认证服务器提交接入服务申请。基于端口的MAC锁定只允许信任的MAC地址向网络中发送数据。来自任何“不信任”的设备的数据流会被自动丢弃,从而确保最大限度的安全性。
在802.1x协议中,只有具备了以下三个元素才能够完成基于端口的访问控制的用户认证和授权。
1. 客户端。一般安装在用户的工作站上,当用户有上网需求时,激活客户端程序,输入必要的用户名和口令,客户端程序将会送出连接请求。
2. 认证系统。在以太网系统中指认证交换机,其主要作用是完成用户认证信息的上传、下达工作,并根据认证的结果打开或关闭端口。
3. 认证服务器。通过检验客户端发送来的身份标识(用户名和口令)来判别用户是否有权使用网络系统提供的网络服务,并根据认证结果向交换机发出打开或保持端口关闭的状态。
流量控制
安全交换机的流量控制技术把流经端口的异常流量限制在一定的范围内,避免交换机的带宽被无限制滥用。安全交换机的流量控制功能能够实现对异常流量的控制,避免网络堵塞。
防DDoS
企业网一旦遭到大规模分布式拒绝服务攻击,会影响大量用户的正常网络使用,严重的甚至造成网络瘫痪,成为服务提供商最为头疼的攻击。安全交换机采用专门的技术来防范DDoS攻击,它可以在不影响正常业务的情况下,智能地检测和阻止恶意流量,从而防止网络受到DDoS攻击的威胁。
虚拟局域网VLAN
虚拟局域网是安全交换机必不可少的功能。VLAN可以在二层或者三层交换机上实现有限的广播域,它可以把网络分成一个一个独立的区域,可以控制这些区域是否可以通讯。VLAN可能跨越一个或多个交换机,与它们的物理位置无关,设备之间好像在同一个网络间通信一样,
VLAN可在各种形式上形成,如端口、MAC地址、IP地址等。VLAN限制了各个不同VLAN之间的非授权访问,而且可以设置IP/MAC地址绑定功能限制用户的非授权网络访问。
基于访问控制列表的防火墙功能
安全交换机采用了访问控制列表ACL来实现包过滤防火墙的安全功能,增强安全防范能力。访问控制列表以前只在核心路由器才获使用。在安全交换机中,访问控制过滤措施可以基于源/目标交换槽、端口、源/目标VLAN、源/目标IP、TCP/UDP端口、ICMP类型或MAC地址来实现。
ACL不但可以让网络管理者用来制定网络策略,针对个别用户或特定的数据流进行允许或者拒绝的控制,也可以用来加强网络的安全屏蔽,让 找不到网络中的特定主机进行探测,从而无法发动攻击。
入侵检测IDS
安全交换机的IDS功能可以根据上报信息和数据流内容进行检测,在发现网络安全事件的时候,进行有针对性的操作,并将这些对安全事件反应的动作发送到交换机上,由交换机来实现精确的端口断开操作。实现这种联动,需要交换机能够支持认证、端口镜像、强制流分类、进程数控制、端口反查等功能
设备冗余也重要
物理上的安全也就是冗余能力是网络安全运行的保证。任何厂商都不能保证其产品不发生故障,而发生故障时能否迅速切换到一个好设备上,是令人关心的问题。后备电源、后备管理模块、冗余端口等冗余设备就能保证即使在设备出现故障的情况下,立刻赋予后备的模块、安全保障网络的运行。
安全交换机的布署
安全交换机的出现,使得网络在交换机这个层次上的安全能力大大增强。安全交换机可以配备在网络的核心,如同思科Catalyst 6500这个模块化的核心交换机那样,把安全功能放在核心来实现。这样做的好处是可以在核心交换机上统一配置安全策略,做到集中控制,而且方便网络管理人员的监控和调整。而且核心交换机都具备强大的能力,安全性能是一项颇费处理能力的工作,核心交换机做起这个事情来能做到物尽其能。
把安全交换机放在网络的接入层或者汇聚层,是另外一个选择。这样配备安全交换机的方式就是核心把权力下放到边缘,在各个边缘就开始实施安全交换机的性能,把入侵和攻击以及可疑流量堵在边缘之外,确保全网的安全。这样就需要在边缘配备安全交换机,很多厂家已经推出了各种边缘或者汇聚层使用的安全交换机。它们就像一个个的堡垒一样,在核心周围建立起一道坚固的安全防线。
安全交换机有时候还不能孤军奋战,如PPPoE认证功能就需要Radius服务器的支持,另外其他的一些交换机能够和入侵检测设备做联动的,就需要其他网络设备或者服务器的支持。
安全交换机的升级
目前市场上出了很多新的安全交换机,它们是一出厂就天生具备了一些安全的功能。那么一些老交换机如何能够得到安全上的保障呢。一般来说,对于模块化的交换机,这个问题很好解决。普遍的解决方式是在老的模块化交换机上插入新的安全模块,如思科Catalyst 6500就带有防火墙模块、入侵检测IDS模块等等安全模块;神州数码的6610交换机配备了PPPoE的认证模块,直接插入老交换机就能让这些“老革命”解决新问题。
如果以前购置的交换机是固定式的交换机,一些有能力的型号就需要通过升级固件firmware的形式来植入新的安全功能。
安全交换机的前景
随着用户对网络环境的需求越来越高,对具备安全功能的交换机的需求也越来越大。很多用户认为,花一定的投资在交换机的安全上,对整个网络健壮性和安全性的提高是值得的。特别是一些行业用户,他们对网络的需求绝非连通即可。如银行、证券以及大型企业,网络病毒爆发一次或者入侵带来的损失,足以超过在安全交换机上的额外投资。安全交换机已经成为交换机市场上的一个新亮点。
以太网中的交换机之间存在不恰当的端口相连会造成网络环路,如果相关的交换机没有打开STP功能,这种环路会引发数据包的无休止重复转发,形成广播风暴,从而造成网络故障,我们在校园网的维护过程中多次遇到过这种故障,其中有一次排除故障的过程令我们印象深刻。
故障描述
一天,我们在校园网的网络运行性能监控平台上发现某栋搂的VLAN有问题DD其接入交换机与校园网的连接中断。检查放置在网络中心的汇聚交换机,测得与之相连的100BASE-FX端口有大量的入流量,而出流量却非常少,显得很不正常。然而这台汇聚交换机的性能似乎还行,感觉不到有什么问题。于是,我们在这台汇聚交换机上镜像这个异常端口,用协议分析工具Sniffer来抓包,最多时每秒钟居然能抓到10万多个。对这些数据包进行简单分析,我们发现其中一些共同特征。
1、绝大部分的包长为62个字节(加上4字节的差错检测FCS域即为66个字节),TCP状态为SYN;
2、源IP为其他网段的IP、目的IP均为该楼网段的IP;
3、尽管源IP地址不同,但源MAC地址却是一样的;
4、目的IP地址和目的MAC地址与在这台汇聚交换机上绑定该楼VLAN的IPDMAC参数一致;
5、实际的数据流向(流入)与这些数据包中的源IP地址和目的IP地址所确定的流向(流出)相反。
当时,我们急于尽快抢修网络,没去深究这些数据包的特征,只看到第1点就以为网络受到不明来历的Syn Flood攻击,估计是由一种新网络病毒引起,马上把这台汇聚交换机上该端口禁用掉,以免造成网络性能的下降。
故障排除
为了能在现场测试网络的连通性,在网络中心,我们把连接那栋大楼接入交换机的多模尾纤经光电转换器用双绞线连到一台PC上,并将其模拟成那个问题 VLAN的网关。然后,到现场找来大楼网管员,想让他协助我们尽快把感染了未知病毒的主机查到并隔离。
据大楼网管员反映,昨天网络还算正常,不过,当时本大楼某部门正在做网络调整,今天上班就发现网络不行了,不知跟他们有没有关系。我们认为调整网络应该跟感染病毒关系不大。在大楼主配线间,我们把该接入交换机上的网线都拔掉,接上手提电脑,能连通网络中心的测试主机。我们确认链路没问题后,每次将剩余网线数量的一半插回该交换机,经测试没问题则如是继续下去,否则换插另一半,逐渐缩小怀疑有问题网线的数量。
我们最终找到一条会引起问题的网线,只要插上这根网线,该大楼网络就会与模拟网关中断连接。经大楼网管员辨认,这条网线是连接昨天在做网络调整的那个部门的。他还说以前该部们拉了一主一备两条网线,应该还有一条,并亲自在那台交换机上把另一条找了出来。随意插上这两条网线中的一条,网络没问题,但只要同时插上,就有问题,哪有在一台交换机上同时插上两条网
线才会激活网络病毒的SYN Flood攻击的?这时我们倒是觉得这种现象更像是网络中有环路。我们到了那个部门发现有三台非管理型交换机,都是串在一起的,然而其中两台又分别通过那两条网线与接入交换机相连,从而导致了网络环路。显然是施工人员对网络拓扑不清楚,当时大楼网管员有事外出,就自以为是地把线接错了,从而造成了这起网络事故。原因找到就好办了,只需拔掉其中一条上联网线即可恢复网络连通,
经过一番周折,网络恢复了正常,但我们还一直在想,是什么干扰了我们的判断呢?
故障分析
一起典型的网络环路故障,用协议分析工具Sniffer抓了这么多的数据包,经过一番分析却没看出问题来。显然,第一眼看到大量的SYN包让我们产生了错觉,想当然地就以为是SYN Flood攻击。事后,我们就这起网络环路故障排除过程做了检讨,重新仔细地分析抓回来的这些数据包,据此解释一下前面提到这些数据包所具有的5个共同特征,以便今后遇到同类问题时能及时作出正确的反应。
先看前4个特征:汇聚交换机是网络层设备,该大楼所属VLAN的网络层接口就设置在这台汇聚交换机上,出于实施网络管理策略的需要,对已注册或没注册的 IP地址都进行了MAC地址的绑定。TCP连接要经过3次握手才能建立起来,在这里发起连接的SYN包长度为28个字节,加上14个字节的以太帧头部和 20个字节的IP报头,由Sniffer捕获到的帧长度共为62个字节(不包含4字节的差错检测FCS域)。恰巧当时访问该VLAN的单播帧是来自外网的 TCP请求包,根据以太网桥的转发机制,通过CRC正确性检测后,因已做静态ARP配置,这台汇聚交换机会将该单播帧的源MAC地址转换成本机的MAC地址,其目的MAC地址依据绑定参数来更换,并重新计算CRC值,更新FCS域,经过这样重新封装后,再转发到那栋楼的接入交换机。
再看最后1个特征:网桥是一种存储转发设备,用来连接相似的局域网。这些网桥在所有端口上监听着传送过来的每一个数据帧,利用桥接表作为该数据帧的转发依据。桥接表是MAC地址和用于到达该地址的端口号的一个“MAC地址-端口号”列表,它利用数据帧的源MAC地址和接收该帧的端口号来刷新。网桥是这样来使用桥接表的:当网桥从一个端口接收到一个数据帧时,会先刷新桥接表,再在其桥接表中查找该帧的目的MAC地址。如果找到,就会从对应这个MAC地址的端口转发该帧(如果这个转发端口与接收端口是相同,就会丢弃该帧)。
如果找不到,就会向除了接收端口以外的其他端口转发该帧,即广播该帧。这里假定在整个转发过程中,网桥A、B、C和D都在其桥接表中查找不到该数据帧的目的MAC地址,即这些网桥都不知道应该从哪个端口转发该帧。当网桥A从上联端口接收到一个来自上游网络的单播帧时,会广播该帧,网桥B、C收到后也会广播该帧,网桥D收到分别来自网桥B、C的这个单播帧,并分别经网桥C、B传送回网桥 A,到此网桥A收到了该单播帧的两个副本。
在这样的循环转发过程中,网桥A不停地在不同端口(这时已经不涉及上联端口了)接收到相同的帧,由于接收端口在改变,桥接表也在改变“源MAC-端口号”的列表内容。前面已经假定网桥的桥接表中没有该帧的目的MAC地址,网桥A在分别收到这两个单播帧后,都只能再次向除了接收端口以外的其他端口广播该帧,故该帧也会向上联端口转发。
就每个单播帧而言,网桥A重复前面提到的过程,理论上,广播一次会收到21个帧,广播两次就会收到22个帧,…,广播到第n次就会收到2n个帧。总之,网桥A照这样转发下去,很快就会形成广播风暴,这个单播帧的副本最终会消耗完100BASE-X端口带宽。尽管在这期间上联端口会有许多数据帧在相互碰撞而变的不完整,令Sniffer捕获不到,但可以想象得到这个单播帧的重复出现次数仍然会非常多。我们再次检查那些抓回来的数据包,几乎都发现有当时没有注意到的重复标志。按64字节包长来计算,以太网交换机的100BASE-FX端口转发线速可达144000pps。在这种网络环路状态下, Sniffer完全有可能每秒抓到10万多个包长为66字节的数据包。
级连扩展
级连扩展模式是最常规,最直接的一种扩展方式,一些构建较早的网络,都使用了集线器(HUB)作为级连的设备,因为当时集线器已经相当昂贵了,多数企业不可能选择交换机作为级连设备。那是因为大多数工作组用户接入的要求,一般就是从集线器上一个端口级连到集线架上。在这种方式下,接入能力是得到了很大的提高,但是由于一些干扰和人为因素,使得整体性能十分低下,只单纯地满足了多端口的需要,根本无暇考虑转发交换功能。现在的级连扩展模式综合考虑到不同交换机的转发性能和端口属性,通过一定的拓扑结构设计,可以方便地实现多用户接入。
级连模式是组建大型LAN最理想的方式,可以综合利用各种拓扑设计技术和冗余技术,实现层次化网络结构,如通过双归等拓扑结构设计冗余,通过Link Aggregation技术实现冗余和Up Link的带宽扩展,这些技术现在已经非常成熟,广泛使用在各种局域网和城域网中。
级连模式使用通用的以太网端口进行层次间互联,如100M FE端口、GE端口以及新兴的10GE端口。
级连模式是以太网扩展端口应用中的主流技术。它通过使用统一的网管平台实现对全网设备的统一管理,如拓扑管理和故障管理等等。级连模式也面临着挑战,当级连层数较多,同时层与层之间存在较大的收敛比时,边缘节点之间由于经历了较多的交换和缓存,将出现一定的时延。解决方法是汇聚上行端口来减小收敛比,提高上端设备性能或者减少级连的层次。在级连模式下,为了保证网络的效率,一般建议层数不要超过四层。如果网络边缘节点存在通过广播式以太网设备如HUB扩展的端口,由于其为直通工作模式,不存在交换,不纳入层次结构中,但需要注意的是,HUB工作的CSMA/CD机制中,因冲突而产生的回送可能导致的网络性能影响将远远大于交换机级连所产生的影响。
级连模式是组建结构化网络的必然选择,级连使用通用电缆(光纤),各个组件可以放在任意位置,非常有利于综合布线。
堆叠技术扩展
堆叠技术是目前在以太网交换机上扩展端口使用较多的另一类技术,是一种非标准化技术。各个厂商之间不支持混合堆叠,堆叠模式为各厂商制定,不支持拓扑结构。目前流行的堆叠模式主要有两种:菊花链模式和星型模式。堆叠技术的最大的优点就是提供简化的本地管理,将一组交换机作为一个对象来管理。
菊花链式堆叠
菊花链式堆叠是一种基于级连结构的堆叠技术,对交换机硬件上没有特殊的要求,通过相对高速的端口串接和软件的支持,最终实现构建一个多交换机的层叠结构,通过环路,可以在一定程度上实现冗余。但是,就交换效率来说,同级连模式处于同一层次。菊花链式堆叠通常有使用一个高速端口和两个高速端口的模式,两者的结构见图二所示。使用一个高速端口(GE)的模式下,在同一个端口收发分别上行和下行,最终形成一个环形结构,任何两台成员交换机之间的数据交换都需绕环一周,经过所有交换机的交换端口,效率较低,尤其是在堆叠层数较多时,堆叠端口会成为严重的系统瓶颈。使用两个高速端口实施菊花链式堆叠,由于占用更多的高速端口,可以选择实现环形的冗余。菊花链式堆叠模式与级连模式相比,不存在拓扑管理,一般不能进行分布式布置,适用于高密度端口需求的单节点机构,可以使用在网络的边缘。
菊花链式结构由于需要排除环路所带来的广播风暴,在正常情况下,任何时刻,环路中的某一从交换机到达主交换机只能通过一个高速端口进行(即一个高速端口不能分担本交换机的上行数据压力),需要通过所有上游交换机来进行交换。
菊花链式堆叠是一类简化的堆叠技术,主要是一种提供集中管理的扩展端口技术,对于多交换机之间的转发效率并没有提升(单端口方式下效率将远低于级连模式),需要硬件提供更多的高速端口,同时软件实现UP LINK的冗余。菊花链式堆叠的层数一般不应超过四层,要求所有的堆叠组成员摆放的位置足够近(一般在同一个机架之上),
星型堆叠技术是一种高级堆叠技术,对交换机而言,需要提供一个独立的或者集成的高速交换中心(堆叠中心),所有的堆叠主机通过专用的(也可以是通用的高速端口)高速堆叠端口上行到统一的堆叠中心,堆叠中心一般是一个基于专用ASIC的硬件交换单元,根据其交换容量,带宽一般在10-32G之间,其ASIC交换容量限制了堆叠的层数。
星型堆叠
星型堆叠技术使所有的堆叠组成员交换机到达堆叠中心Matrix的级数缩小到一级,任何两个端节点之间的转发需要且只需要经过三次交换,转发效率与一级级连模式的边缘节点通信结构相同,因此,与菊花链式结构相比,它可以显著地提高堆叠成员之间数据的转发速率,同时,提供统一的管理模式,一组交换机在网络管理中,可以作为单一的节点出现。
星型堆叠模式适用于要求高效率高密度端口的单节点LAN,星型堆叠模式克服了菊花链式堆叠模式多层次转发时的高时延影响,但需要提供高带宽Matrix,成本较高,而且Matrix接口一般不具有通用性,无论是堆叠中心还是成员交换机的堆叠端口都不能用来连接其他网络设备。使用高可靠、高性能的Matrix芯片是星型堆叠的关键。一般的堆叠电缆带宽都在2G-2.5G之间(双向),比通用GE略高。高出的部分通常只用于成员管理,所以有效数据带宽基本与GE类似。但由于涉及到专用总线技术,电缆长度一般不能超过2m,所以,星型堆叠模式下,所有的交换机需要局限在一个机架之内。
可见,传统的堆叠技术是一种集中管理的端口扩展技术,不能提供拓扑管理,没有国际标准,且兼容性较差。但是,在需要大量端口的单节点LAN,星型堆叠可以提供比较优秀的转发性能和方便的管理特性。级连是组建网络的基础,可以灵活利用各种拓扑、冗余技术,在层次太多的时候,需要进行精心的设计。对于级连层次很少的网络,级连方式可以提供最优性能。例如,在需要扩展为两倍端口的网点,使用星型堆叠边缘之间需要交换三次,级连模式和菊花链式堆叠需要交换两次,星型堆叠模式需要更大的投资,菊花链式堆叠模式需要占用更多的高速端口,普通级连成为最经济和高效的组建方式。另外,还可以利用从前已有的交换设备,不需重复投资,但是,这两台设备需单独管理。
传统的堆叠技术应用往往受限于地理位置的限制,往往需要放置在同一个机架,在高密度端口应用时,会给布线带来困难。所以各大厂商纷纷积极寻求支持分布式堆叠技术。目前,华为公司Quidway S系列以太网交换机产品、Cisco系列以太网交换产品均提供集群管理模式。Quidway S系列以太网交换机采用华为统一的VRP操作系统和统一的iManager网管系统。该网管系统支持中文界面,采用标准协议和开放技术,全面兼容主流网管平台。Quidway S系列以太网交换机在华为二层交换全线速、三层交换全线速、业务交换全线速和QoS服务全线速“四个全线速”的设计思想指导下,充分利用产品开发的后发优势,在产品的系统设计、扩展能力以及提供丰富的业务特性方面满足宽带城域网络和企业网络的需求,能为客户提供更加高效、安全、易于扩展的客户化解决方案。
以华为公司产品(HGMP)为例,通过集群管理模式的支持,可以在使用Quidway系列交换机通过通用级连模式构建的网络上实现集中的配置和管理,一个LAN可以加入成为一个组,对于网管系统,一个组可以表现为同一台设备,使用一个IP地址进行管理,相当于甚至优于从前堆叠组的管理效果。然而作为通用性的集中表现,组成员交换机在组内可以实现拓扑设计以及成员的分布式放置,而且堆叠端口可以任选设备支持的通用端口或者使用端口的汇聚,使得用户可以获得灵活控制交换网络堆叠带宽的能力,从而达到更高的灵活性要求。
对于不同的环境,选用不同的端口扩展模式的效果是不一致的。在当前情况下,普通的级连模式还是解决层次化网络的主要的应用手段,星型堆叠模式是提供单节点端口扩展的简单管理模式,而通过集群管理实现的分布式堆叠将是下一代堆叠的主要方式。
网络管理是使网络可靠、安全、高效运行的保障,现代网络管理集中了通信技术和信息处理技术发展的各方面成果,它们在网络的不同管理功能中发挥作用,共同实现网络的管理任务。
网络管理有很多技巧和窍门,下面介绍一些网络管理中的常见问题和解决方法,希望能起到抛砖引玉的作用。
配置交换机
将交换机端口配置为100M全双工,服务器安装一块Intel-l00M网卡,安装之后一切正常,但在大流量数据传输时,速度变得极慢,最后发现原来这款网卡不支持全双工。将交换机端口改为半双工以后,故障消失了。这说明交换机端口与网卡的速率和双工方式必须一致。目前有许多自适应的网卡和交换机,按照原理,应该能够自动适应速率和双工方式,但实际上,由于品牌不一致,往往不能正确实现全双工。这时就需要修改配置,强制设定双工方式才能解决。
网络与硬盘
做过网管的老师都知道,基于文件访问和打印的网络的瓶颈既不是交换机,也不是网卡,更不是服务器的CPU或内存,整个网络的瓶颈是服务器硬盘的速度。所以配置好你的服务器硬盘对于网络的性能会起到决定性的作用。主要有以下几个因素需要考虑:
1. 硬盘接口有IDE、EIDE、SCSI等,服务器应选用适合并发数据请求的SCSI接口,
目前较为流行的SCSI接口有Fast wide(20Mbps数据传输率),Ultra wide(40Mbps),Ultra2 wide(80Mbps)。
2. 硬盘的转速越快,读写数据的速度也越快,服务器应选用7200/10000rpm的硬盘。
3. 硬盘阵列卡能较大幅度地提升硬盘的读写性能和安全性,当然造价也会高一些。
4. 在同一SCSI通道,不要将低速SCSI设备(如CD-ROM)与硬盘共用,否则性能会有较大下降。
网段与流量
某局域网内有两台文件读写极为频繁的工作站,当服务器只安装一块网卡,形成单独网段时,这个网段上的所有设备反应都很慢。当服务器安装了两块网卡,形成两个网段以后,将这两台文件读写极为频繁的工作站分别接在不同的网段上,网络中所有设备的反应速度都有了显著改善。这是因为增加的网段分担了原来较为集中的数据流量,从而提高了网络的反应速度。
WAN与接地
不小心将路由器的电源插头插在了市电的插座上,结果64K DDN专线就是无法接通。电信局来人检查线路都很正常,最后检查路由器电源的接地电压,发现不对,换回到UPS的插座上,一切恢复正常。
路由器的电源插头接地端坏掉,造成数据包经常丢失,进行Ping操作时,时通时断,更换电源线后一切正常。WAN的连接因为涉及远程线路,所以对于接地要求较为严格,这样才能保证较强的抗干扰性,达到规定的连接速率,不然会出现奇怪的故障。
在一个交换网络里,您如何确定从哪里开始动手查找问题?想深入“透视”一个交换网络是非常困难的,首先,在2层交换的时候还是桥接转发方式,但到了3层交换却有了更高级的特性和转发规则,例如VLAN。
到了4层交换,就更加复杂了,出现了更高级的转发和负载均衡技术,故障诊断故障诊断和解决就需要更多的交换机配置知识。
在安装完一台交换机后,每个交换机的半双工端口就构成了一个冲突域。如果该端口连接了一个集线器,集线器下面连接若干站点,那么冲突域会扩大。但随着交换产品的价格下跌,现在大多数新建的网络每个交换端口都只连接一个站点。因此,在半双工连接情况下,冲突域仅针对一个单独的电缆链路。
交换机通常是一个独立广播域的一部分,包括串连或者并连的任意数目的其他交换机。如果使用了OSI模型3层的功能,就可以创建多广播域,广播域的数目与VLAN数目相等。最极限的情况,如果交换机功能允许,每个端口可以配置为一个独立的广播域。可以把这种情况描述为路由到桌面。为每个端口创建一个独立的广播域后,故障诊断就会严格受限。但是如果我们把每个端口设置为一个单独的广播域,交换机在转发流量的时候,每个端口都需要路由服务,这会占用交换机CPU的有限资源。在网络环境中,对每个单独的端口进行路由请求和应答是非常困难的,我们应该避免这样的配置。不幸的是,这种情况在实际情况中非常常见,网络中经常发现服务器全部在一个子网或者广播域中,所有的客户在另外的子网或者广播域中。在这种情况下,所有的请求都必须路由。如果维护行为限制在一个单独的服务器群里,那么考虑把服务器放进单独的VLAN里。然后把使用这台服务器的用户放到同一个VLAN。这样就可以使用2层交换的桥接方式来交换流量,只有很少的请求需要路由。如果服务器支撑多于一个用户区,可以在服务器上多装一块网卡来实现到用户的2层交换连接。
对交换机进行故障诊断的5种技术
可以采取5种基本方式来透视交换机。每一种方法都不同,都有积极或者消极的一面。类似在网络中遇到的其他问题一样,没有一个最好的答案。最合适的方案往往取决于您手中可以利用到的资源(什么工具可以使用或者以前安装过什么工具),而且使用这些技术有可能造成服务中断。
即使把这些方式组合起来,也不能监测到所连接的网络,在交换的环境里面,也不像集线器那样方便监测。我们几乎不可能看到通过一个交换机的全部流量。大多数的故障诊断会假设流量会在站点和所连接的服务器之间或经过故障诊断交换机uplink口通过。而实际上如果2台主机直接传输信息的话,就不会使用交换机的uplink口或者任何其他的端口来交换流量。除非你知道具体用到哪个端口,否则是监测不到的。
举个例子,如图1,一台服务器接入一台交换机。在反映有问题的用户中,一部分是直接与这台交换机相连,另外的一部分用户是由这台交换机的uplink口从其他路由器或者交换机连接上来的。故障报告是访问服务器“慢”,这样的故障报告对技术支持工程师来说基本上没有任何价值。
图一、一个最基本的交换机环境
方法1:通过TELNET或者串行口接入服务器
高级的网络技术支持工程师或其他知道交换机密码的人在进行故障诊断时可以选择通过TELENET或者交换机的串口登陆,来检查交换机的配置。(如图2)
图 2、使用RS-232 控制端口
交换机配置可以通过上面提到的2种方法查看,虽然问题不一定是配置引起的。不管问题是操作系统有BUG还是配置不完善,都不能从配置列表中轻易的查看出。配置信息在定位交换机是否像预期的那样运行上比较有用,但针对故障诊断就不是了。为了验证交换机的配置,往往需要使用多种的交换机故障诊断方法配合。
很多交换机都带有实时的故障诊断工具,因为交换机生产厂家和型号的不同,这些故障解决工具的特征也各不相同。但是要使用好这些工具,必须依靠一定的理论知识和实际经验。
方法2:连接到一个空闲端口
最简单的故障诊断方法是在交换机的空闲端口接入一个监测工具,例如协议分析仪。
图3、从任意端口监测
把监测工具接入交换机的一个空闲端口,不用中断服务就可以查看所属广播域。该监测工具与广播域里的其他站点一样有相同的权限。
不幸的是,交换机(做为一个多端口的桥接设备)几乎不转发流量到监测端口。因为桥接设备就是这样设计的,流量直转发到所属的目的端口,不会去其他的端口。协议分析仪因此几乎监测不到流量。
图4、交换机在源端口和目的端口之间转发流量。非常少的流量会转到其他端口。站点和服务器之间可能每秒钟会转发几千个帧,但是监测端口每分钟只能看到几个帧。
转发到监测端口的流量几乎全部都是广播,包含一些零星的目的地址不明的帧。这些零星的帧是由于路由转发表老化的结果,经常是目的端口不明的帧。一些经验不够的技术人员看到这么高的广播(接近100%),却没有注意到端口利用率很低,就误判网络出现了广播风暴,其实不是。
这样查看交换网络几乎没有用,因为监测工具必须获取流量。获得的流量或者对广播域的查询对网络搜索和发现其他类型问题是有很有帮助的,但对解决用户连接慢的问题并没有多大的帮助。
对大多数交换机来说,都有一个更好的选择,可以把需要监测的端口流量备份到一个专门的空闲口。这种技术通常称为端口镜像。
大多数交换机厂家都提供备份或镜像流量的功能,可以把监测工具接入交换机一个专门配置过的端口。老的交换机必须指定一个专门的监测口做为镜像口,但现在大多数新的交换机可以指定任何一个端口做为镜像口。
虽然交换机厂家实现镜像的方式各不相同,但是有一些基本相同的监测选项。值得注意的是,几乎在所有的情况下,交换机在转发流量到镜像口的时候,同时把错误都过滤掉了。对于故障诊断来说,这意味着同时过滤掉了有用的信息。
此外,实际操作当中需要我们通过控制口(交换机的RS232端口),或者Telnet进程来配置镜像。这意味着除了监测工具之外,我们通常还需要带一台电脑或者终端来对交换机进行配置。
镜像端口经常只是一个“监听”端口,不过很多交换机厂家允许把该端口配置成全双工的。配置了镜像口,监测工具就可以查看报告连接慢的主机和服务器之间的实际流量的备份。镜像口可以只监测交换机的任意一个端口,甚至可以是Uplink口,也可以同时监测交换机的多个端口。但是同时监测的端口很多的话,过高的流量就有可能会超过镜像口的接收能力。
监测端口的输出能力是一个很重要的问题。镜像口可以收,也可以发。在配置的时候,经常关掉了镜像口发的功能。但不管有没有关掉镜像口发的功能(不管镜像口是全双工或者不是),镜像口的接收能力都是有限制的。如果被监测的全双工端口的速率和镜像口是一样的话,交换机在转发流量的时候很容易就会丢包,但是交换机不会通知您。
假设您在监测一个以100M全双工速率连接到交换机的服务器的话,那么服务器在全双工工作的时候,服务器的收发速率都是100M,那么总共就有了200M。然而交换机的100M镜像口最多只能接收100M的流量。所以任何交换机的端口(全双工的)利用率超过50%的时候,镜像口接收到的包就会有丢失。
如果把多个端口镜像到一个端口,丢包的问题就会更加的严重。因为大多数交换机都工作在低容量,这个问题并不会被立刻注意到。大多数用户连接的平均利用率都很低。只是偶尔会有流量的突发。
如果选择一个高速的镜像口,就可以减少丢包的问题。例如把图6中的100M镜像口换成1000M,那么就可以很容易的接收200M的监测流量。
方法3:在链路上接入集线器
使用集线器很具有战略意义。对很多网络来说,大多数发送和接收的流量都来源于文件服务器之类的共享设备。在交换机端口和文件服务器中间接入一个集线器,再把分析仪接入集线器,实际上就把分析仪和文件服务器接入了同一个广播域,
如图7所示。使用这种方法,技术支持人员就可以看到文件服务器所有进出的流量,帮助技术支持人员解决一系列的问题,包括用户登陆失败、性能低效、连接丢失等。
图5、使用集线器监测交换机端口
接入集线器的方法很多时候都不实用,特别是在需要监测多个服务器的时候。在哪里接入集线器合适?所有的服务器都要连接吗?如果是用一个集线器,换来换去连接的话,您一定不希望您的网络这样频繁地被干扰。连接集线器所带来的时延,经常会带来连接的丢失。另外,很多时候监测工具并不支持服务器所采用的技术或者连接速率。
使用共享集线器监测一条链路上的所有流量和错误仍然是一个有效的方法。这几乎是唯一一种可以在交换网络环境中实际查看和分析MAC层错误的方法。使用SNMP来发现这些错误也可以。但是,为了更好地进行错误分析,还是用监测工具直接查看最直接。
接入集线器的方法有2种主要缺陷。服务器链路有可能不是全双工的,或者和集线器的端口双工状态不匹配,这会给监测带来更多的不愿意看到的错误结果。而且使用这种方法时,手头必须要有一个共享集线器。现在很多新型的集线器都类似于交换机,而不是共享的转发设备。接入这种新型的集线器,相当于接入了一个新的交换机,您会看不到想要查看的流量,对监测起不到什么作用。安恒公司如果接入的是双速率的集线器,例如10M/100M双速率的,可能每个速率都提供了一个广播域,两个速率之间再进行转发。在这种情况下,需要确认被监测链路和监测工具运行在相同速率,才能够使用这种双速率集线器。还有一些集线器提供在所有端口之间转发的功能,更因此把自己标榜为价格便宜的交换机,给人造成误解。他们都不能用在这种监测方法上。
方法4:使用一个TAP(监测接口盒)或者分流器
这种方法类似于加了一个共享集线器,不同点是TAP链路只是接收流量,不允许监测工具发出流量。
TAP和分流器这2个词有时候可以互换,虽然分流器通常应用于光纤链路。在光纤链路上,分流器会把光在初始路径和监测路径上进行分光。典型的分光比率包括80:20、70:30以及50:50。以80:20为例,80%的光通过分光器继续传送到原始路径,20%的光转发到监测路径。如果光纤本来就有问题,或者传输的距离很长的话,光分流器带来的20%光丢失,很容易造成链路出现问题。分流器在光纤链路上很容易就会带来3 dB的衰减。有些分流器要耐用一些,因此即使在链路的一端安装分流器造成链路中断,还可以将其换到另一端去安装,让链路正常工作。光分流器不需要电源就可以工作。需要注意的是,分流器是带内(Inbound)监测设备,所以分流器的线缆正确连接就非常重要。
电口的TAP也会带来信号丢失的问题,因为TAP需要信号来识别通过的流量。对电缆来说,这相当于增加了衰减,如果链路本身已经有一定问题或者链路很长的话,TAP的引入有可能会造成连接中断。电口的TAP工作需要电源,信号被恢复并重传到监测端口。如果设计的好,在TAP掉电的时候,链路应该也不会中断。
对链路使用TAP进行监测的方式是一个很好的查看链路流量的方法。一旦安装成功,TAP对被监测的设备来说就是透明的,可以随时使用,而且不会带来更多干扰。不幸的是,在接入TAP的时候,链路必须暂时中断。此外,TAP或者分流器会按照2个独立的方向提供流量。也就是说,发送和接收是分开的。
为了同时监测通过TAP链路的请求及响应,需要一个带两个输入口的监测工具。双端口的监测工具可以分别监测每个方向,也可以把两个方向的链路集中在一起分析。您也可以选择每次只监测一个方向的流量,但这样分析起来会比较困难。对TAP来说,监测全双工链路和半双工链路,操作上没有什么区别,都可以监测。您可以选择一个单端口的监测工具,监测单一的方向,或者选择一个双端口的监测工具,同时的监测两个方向。
方法5:用SNMP查询交换机
对一个交换网络进行故障诊断的最有效办法,应该是通过直接询问交换机来查看网络的状况。这可以通过SNMP或者连接到交换机的控制口实现。显然,直接连接到交换机的控制口不是理想的办法,因为这就需要对网络中的每台交换机都有物理上的连接。稍微理想一点的替代方法是搭建连接到交换机控制口的终端服务器。安恒公司SNMP是一个更好的选择,它可以在交换网络带内的任何地方进行查询,不需要附加的硬件。如果您部署了网管系统,还可以配置当利用率、错误、或者其他参数超过门限的时候,交换机主动发出SNMP陷阱。然后利用网管或者监测工具,研究是什么原因造成了门限超出。
事实上几乎所有的交换机都提供SNMP功能,哪怕是最便宜的交换机。它们之间主要的区别就是提供的信息多少。一些价格便宜的交换机只提供简单的SNMP信息,且是针对整个交换机的;而那些价格贵一些的交换机,还可以提供交换机每个端口的详细信息。
SNMP可能是监测交换网络最常用和干扰最少的办法。SNMP控制台不需要非常靠近被监测的设备,只要求有路由可达就可以了,同时交换机的安全配置允许控制台与交换机的代理进行通信。
图6、使用SNMP监测交换机安
虽然交换机可以识别到错误,但交换机本身并不定时地报告错误,所以使用SNMP查询或许是最好的办法。
支持SNMP的交换机有不同的MIB库(管理信息库)。每一种MIB都不同。除了某些对自己的交换机提供支持的私有MIB库,标准的MIB库对交换网络的监测也非常有用。下面是对故障诊断非常有用的一些MIB库。
RFC 1213 – MIB II
RFC 1643 – Ethernet-Like Interface MIB
RFC 2819 – RMON Ethernet
RFC – RMON 2
RFC 2613 – SMON
很多RFC生成之后就不断地在更新和增强。因此我们要检查最近更新的RFC。例如RFC1213,至少更新和增强了五次,生成了5个新的RFC(,,,2358和2665)。除了定义利用率和错误的RFC之外,有关桥接的MIB(RFC1493)也是非常有用的。
使用SNMP监测网络的时候,必须注意安全性。如果SNMP代理没有限制,那么潜在的任何地方的任何人都可以监测到您的网络动态或修改交换机配置。交换机售出的时候默认打开了SNMP,并且使用的是一个非常通用的密码。SNMP密码叫做通信字符串,使用明文传播,这带来了潜在的危险。SNMP V3提供对通信字符串的加密,减少了这种危险,但是SNMP V3还没有广泛使用。最常用的通信字符串是public。现在,使用public,很多Internet上的SNMP代理都可以被接入。
我们应该立即修改通信字符串。SNMP代理应该为不同的字符串配置不同的接入级别,不同的IP地址、不同的子网也有不同的接入级别。或者根据其它的配置来限制接入的级别。通过路由器接入SNMP代理可能会对SNMP的限制带来一些影响。防火墙也有可能完全阻止SNMP。即使您能够通过SNMP接入代理,也要求代理支持您所要查询的MIB库。大部分厂家完全支持标准的MIB库。然而,也有一些厂家不支持。有时候为了支持期望的MIB,还需要先对交换机的操作系统进行升级。这种方法还有一个问题,如果SNMP代理执行的MIB不正确的话,那么响应就完全是错误的了。虽然这并不是经常发生的,但有时候程序设计的错误,会带来错误的响应。
交换机不响应SNMP的查询有很多原因。一旦这些问题都解决了,SNMP就能够提供非常有效的监测和趋势分析。
结论
故障诊断的一个普遍方法是等待用户的投诉。这个方法虽然简单,但是非常有效。用户能够感知到网络正常的性能是怎样的。一旦有性能下降,网络支持中心就会很快收到客户的投诉。有了用户投诉,您就应该从他的接入点开始做故障诊断了。这种方法的缺点是完全是被动的,不具有前瞻性的。
理想的方法是使用前瞻性地监测。包括定期地查询每个交换机、监测每个交换端口的流量、流量的趋势,同时检测其他的相关网段。把问题解决从故障诊断方式变成故障预防方式。
网络中的冗余链路也叫备份链路。当主链路出现故障时,会自动启动备份链路,以保障网络的通畅。它能够为网络带来健全性,稳定性和可靠性等好处
由于备份链路会出现环路从而导致广播风暴,多帧复制及MAC地址表的不稳定等。为此我们在交换机网络中还要采取生成树协议。
生成树协议主要是通过在交换机网络中选择一条最短短路径作为主路径,而其它的则作为备份链路。当开启了生成树协议时,备份链路会自动关闭;而当主链路出现故障时,备份链路又会自动开启,以保证网络通信正常。因此在使用了生成树协议后,交换机网络中就不会出现环路问题了。
生成树协议定义的几个名词:
根交换:在交换机网络中,要指定某一交换机为参照物,即根交换。根交换机的选择是通过交换机的优先级来进行的。每个交换机都有优先级,默认的为32768。数值越小,优先级越高!
指定端口:根交换机上的所以端口
根端口:除根交换机上的端口外,与根交换机相连的交换机上的端口的优先级最高的端口为根端口。
最短路径选择:
1)根据本交换机到根交换机的带宽大小(路径开销)来比较:带宽小的优先
2)根据中间连路中的交换机的MAC地址(桥ID)来判断:MAC地址越小的优先级越高
3)比较接收者的端口号优先级:当中间交换机选择了之后,要选择本交换机到中间交换机的最短路径:在中间交换机的端口中,端口优先级高的越优先。
4)比较接收者的端口号:当接收者的端口优先级都相同时,哪个端口号最小哪个优先级最高。
生成树协议的配置:
1)开启生成树协议并指定协议的类型:S(config)# spanning-tree
S(config)# spanning-tree mode { stp | rstp }
2)配置交换机的优先级,选择根交换机:S(config)# spanning-tree priority<0~61440>(4096的倍数)
3)配置交换机端口的优先级:S(config)# int fa0/ fa-id
S(config-if)# spanning-tree port-priority<0~240>(16的倍数)
4)配置交换机端口路径开销:S(config)# int fa0/ fa-id
S(config-if)# spanning-tree cost cost(开销花费 1~200 000 000)
由于生成树协议有一个等待转发和学习的过程,所以有三个时间段的延时(20秒15秒15秒),为此又出了快速生成协议(Rstp),Rstp 的配置方式也STP的配置方法一样。
[交换机网络中的冗余链路技术]
正文:
问:我的机器通过交换机和其他设备相连在同一网段,但是却ping不通,是哪些问题造成的?
答:有可能是硬件故障或是设置故障。若是硬件故障,应检查交换机的显示灯、电源和连线是否正确,交换机是否正常。若是设置故障,先检查交换机是否设置了IP地址,如果设置了和其他设备不在同一网段的IP地址,将其删除或设一个和其他设备在同一网段的IP地址;然后再看看是否是VLAN设置的故障,如果交换机设置了不同的VLAN,连接交换机的几个端口属于不同的VLAN,所以不通,此时,您只要将设置的VLAN去除即可。
问:我想用FEC的功能,当我把2个交换机的两对端口用2条线同时相连时,却发现每个交换机始终是一个端口正常另一个端口显示红灯,是不是交换机的端口有故障?
答:一般来说,这种情况交换机是正常的,因为2个交换机是用2个端口相连,所以交换机认为有LOOP存在,它就自动断掉其中的一根,将相应的端口Down掉(显示红灯的端口)。解决方法是: 打开Spanning-tree的功能(缺省情况下是打开的),让交换机知道这2个端口是FEC的功能,逻辑上是一个端口。
问:我的交换机原来连在10/100Mbps自适应网卡的机器上能够非常正常地工作,现在连在100Mpbs网卡的服务器却出现红灯亮的情况,无法通信,是否交换机有问题?
答:这种情况是由于配置不当引起的。交换机的端口很可能被强制设置成10Mbps,在连到100Mbps端口的情况下才会报错。解决方法是: 在端口配置下,将端口速度恢复成自适应或强制设置成100Mpbs。
问:我的交换机设置了若干VLAN,我在同一个VLAN内的机器不在一个网段,它们可以通信吗?
答:不可以。同一个VLAN只能在同一个网段内,不同网段不可以划在同一个VLAN,否则交换机会报错。
问:我想把Cisco Catalyst 3524连接到一个由交换机连接的现有网络上。主交换机是一个Catalyst6509,它的GBIC已经与Catalyst4006交换机相连。我决定使用Catalyst 6509模块3的端口,并使用一条5型转接电缆连接快速以太网端口,即Catalyst 6509的3/15端口和Catalyst 3524的0/1端口,同时将2个端口设置成100Mbps、全双工、同一个VLAN1管理域和相同的VTP域和相同的VTP模式(服务器模式)。两端口的主干方式和打包分别设置成非协商和802.2q。于是出现一个问题:当我在网络上从Catalyst 3524控制台上ping任何IP地址时,虽然得到0/5端口的成功速率,但2个交换机之间并没有数据传输。我怀疑Catalyst 3524以太端口不具有主干能力,便在Catalyst 3524控制台上做了端口显示,但没有得到足够的信息,
请问这是怎么回事?
答:干线是用来连接交换机的,它通过Layer 2网络为多个VLAN传输信息,而且VLAN拥有交换机(或多交换机)上各种各样的端口。作为Layer 2设备,交换机并不具有判断网络地址的能力。只要它们在交换时将各种帧进行打包,就必须有路由器在某处进行Layer 3(路由)选择。
当您在干线上连接多个交换机时,为了通过它们传递多个VLAN的信息,必须为通信建立一些层次,以便使所有的交换机协同传递信息,它可以通过干线协议和VTP域实现。
首先,所有交换机必须都能支持共同的干线协议。如果所有的交换机都是Cisco的,可以选择ISL协议作为干线打包类型;如果并非所有的交换机都是Cisco的,或者将来还有可能增加其他种类的交换机,最好选择IEEE 802.1q干线协议。由此可见,您提到在多个交换机网络中使用的Catalyst 4000仅支持802.1q干线协议,所以您不能选择ISL协议。
据我所知,在Cisco环境中,802.1q被称为“dot1q”打包,您选择了802.1q协议之后就该把干线开通。然而,并非Catalyst 6500系列交换机的所有模块都支持干线。为了查证具体端口是否支持干线,可以键入“show port capabilities 3/15”,在Catalyst 6509上,您将看到如下的输出内容:
在以上内容中,最重要的部分是以“trunk encap type”开始的行,它显示了具体端口可能使用的方式。如果您看不到任何有关干线的信息,就不可能把它连接到干线上。
在Catalyst 2900XL和Catalyst 3500XL上,任何一个100Base-TX或千兆以太端口都可以作为ISL或IEEE 802.1q方式打包的干线端口。而对于Catalyst 5000/6000,大概需要这样的命令来设置干线方式“set trunk 3/15 on dot1q”,然后,用“show trunk”来检查设置。在Catalyst 2900XL和Catalyst 3500XL上,等价的命令如下:
interface fa0/1
switchport mode trunk
switchport trunk encapsulation dot1q
然后,用“show interface fa0/1 switchport”检查设置。
关于VTP的设置,您提到两端的交换机都设置成“服务器”方式。我不知道这样对您的网络是否必需。通常,在VLAN结构发生变化的交换机上才采用服务器方式传输信息。一般地,分配级或访问级交换机都设置为“vtp client”,这样它们便可以接收并传送这些信息,但并不主动发送信息。如果您的Catalyst 3524被设置为服务器方式,并且有比其他接入服务器vtp数据库更新的版本,它会忽略数据更新,并且还有可能向每个服务器发出异常信息。
需要注意的是,在802.1q干线上,所有交换机都要共享同一个VLAN管理域(未加标签的那个)。另外,需要指出的是,80%的连接问题出现在物理层,特别是在已经精心设置之后还没有传输数据(或者没有cdp)之时,您可以拔下电缆,连上电缆检测器,或使用任何您能够想到的办法检查一下电缆的连接。也有可能出现这样的情况:两端的链路指示灯闪亮,但是实际并没有数据在任一方向上传输。
还有一点要说的是,使用Catalyst 6500和Catalyst 4000系列交换机在相连的情况下拨号时,如果关掉VTP分支,就会有一些技术问题引起交换机间大量信息的传输,并造成网络的不稳定。
判断中低端交换机是二层还是三层的简单方法
看型号的第二位数字,0-4是二层交换机,5-9是三层交换机,如3026/5012因为第二位是0,所以只带二层功能,3526/3924/2952/5648因第二位是5/9/9/6,所以都是带三层功能的
原文转自:www.ltesting.net