华为ar系列路由器故障处理指南

2023-05-03 09:01 综合百科 0阅读 投稿:小七

用户无法上网典型故障案例

  • AR有线网络经常断开,几分钟一次
  • 仅部分网页无法访问
  • 更换为PPPoE拨号上网后,有线用户无法上网,无线用户可以
  • 仅一个网段的用户无法上网
  • 多链路PPPoE拨号场景,一条链路拨号失败后用户无法上网

AR有线网络经常断开,几分钟一次

故障现象

用户使用AR作为出口网关,用户在通过有线网络上网时,经常会断网,几分钟发生一次。路由器下实际接入的终端用户数仅二十多个,远没有达到路由器可接入用户数的规格上限。

根因分析

  • 私网有异常流量,导致设备的Session和Block内存资源超过阈值,无可用的Session和Block资源供用户上网。虽然设备会定时清理内存资源,但是由于异常流量较大,资源很快会被再次耗尽,导致用户会经常断网。
  • 设备温度过高或者CPU利用率过高时,也会导致用户在通过有线网络上网时经常断网,此时需要采取措施降低设备温度或CPU利用率。
  • 设备软件版本过低时,也可能会导致用户上网时断时续,此时,可以尝试升级版本解决问题。

操作步骤

  1. 执行命令display logbuffer,查看Log缓冲区记录的信息中是否有大量Session和Block内存资源过载的日志。
<Huawei> display logbufferLogging buffer configuration and contents: enabled Allowed max buffer size: 1024 Actual buffer size: 512 Channel number: 4, Channel name: logbuffer Dropped messages: 0 Overwritten messages: 167 Current messages: 512 Mar 5 2021 15:47:25+08:00 Huawei %%01FORWARD/4/SESSION-RES-LACK(l)[135]:The device session resources were overloaded.(Usage = 94%)Mar 5 2021 16:29:25+08:00 Huawei %%01FORWARD/4/CAP-BLOCK-RES-LACK(l)[259]:The block memory resources were overloaded.(Usage = 97%)Mar 5 2021 16:34:25+08:00 Huawei %%01FORWARD/4/SESSION-RES-LACK(l)[261]:The device session resources were overloaded.(Usage = 92%)Mar 5 2021 16:43:25+08:00 Huawei %%01FORWARD/4/CAP-BLOCK-RES-LACK(l)[273]:The block memory resources were overloaded.(Usage = 96%)

2.进入诊断视图,执行命令display session statistics top 10 order-by source-ip根据源IP地址统计Top 10用户的Session信息。如果查到Top 10会话里有大量私网终端建立的会话(IP地址为私网终端的IP地址),则执行命令display session statistics top 10 order-by destination-port进一步查看私网终端建立的会话的端口信息。本例中,私网用户建立了大量目的端口为445和1433的会话。此时,建议在私网接口上配置ACL规则拒绝目的端口为445和1433的流量通过。

<Huawei> system-view[Huawei] diagnose[Huawei-diagnose] display session statistics top 10 order-by source-ipSession statistic top 10 (Condition: Source IP, Service: SESSION, Items: 10, Total Sessions: 25768)-------------------------------------------------------------------------------------------------TOP-N IP/Port Counts Percentage(%) -------------------------------------------------------------------------------------------------1 192.168.1.99 19714 76.505744 2 192.168.1.88 5988 23.238125 3 192.168.1.165 9 0.034927 [Huawei-diagnose] display session statistics top 10 order-by destination-portSession statistic top 10 (Condition: Destination Port, Service: SESSION, Items: 10, Total Sessions: 25768)-------------------------------------------------------------------------------------------------TOP-N IP/Port Counts Percentage(%) -------------------------------------------------------------------------------------------------1 445 15486 60.097796 2 1433 9565 37.119683 3 3389 648 2.514747[Huawei-diagnose] quit [Huawei] interface GigabitEthernet 0/0/0[Huawei-GigabitEthernet0/0/0] display this#ip address 192.168.1.255 255.255.255.0#[Huawei-GigabitEthernet0/0/0] quit

在流策略里绑定ACL并将流策略应用到私网接口,不允许目的端口为445和1433的流量通过私网接口,解决故障。

[Huawei] acl 3000 [Huawei-acl-adv-3000] rule 20 permit tcp destination-port eq 445[Huawei-acl-adv-3000] rule 25 permit tcp destination-port eq 1433[Huawei-acl-adv-3000] quit[Huawei] traffic classifier virus operator or[Huawei-classifier-virus] if-match acl 3000[Huawei-classifier-virus] quit[Huawei] traffic behavior virus[Huawei-behavior-virus] deny[Huawei-behavior-virus] quit[Huawei] traffic policy virus [Huawei-trafficpolicy-virus] classifier virus behavior virus [Huawei-trafficpolicy-virus] quit[Huawei] interface GigabitEthernet 0/0/0[Huawei-GigabitEthernet0/0/0] traffic-policy virus outbound[Huawei-GigabitEthernet0/0/0] traffic-policy virus inbound[Huawei-GigabitEthernet0/0/0] quit

执行命令display temperature all查看设备上各单板的温度信息,“Status”显示为ABNORMAL表示温度过高,单板异常。

<Huawei> display temperature all --------------------------------------------------------------------------- Slot Card Sensor No. SensorName Status Upper Lower Temp(C) --------------------------------------------------------------------------- 1 - 1 2FE TEMP NORMAL 75 0 40 2 - 1 1SA TEMP NORMAL 74 0 53 3 - 1 1CPOS-155M TEMP ABNORMAL 90 0 - 4 - 1 1ADSL-A/M TEMP NORMAL 70 0 49 5 - 1 8FE1GE TEMP NORMAL 85 0 57 8 - 1 1STM4 TEMP NORMAL 74 0 39 

产生温度过高告警的可能原因

  • 设备排风不畅,导致热量散发不出。
  • 空闲槽位未插入假面板。
  • 设备所处环境温度过高。
  • 设备的风扇数量不足。
  • 设备的风扇发生故障。
  • 芯片温度过高。

排除温度过高告警处理步骤

  1. 清洁风扇排风区域,检查空闲的槽位是否已经插入假面板,保证排风通畅,并检查告警是否被消除。
  2. 1)Y=>10
  3. 2)N=>2
  4. 查看设备所处环境温度是否过高。
  5. 1)Y=>3
  6. 2)N=>4
  7. 降低机房环境温度=>4。
  8. 查看设备的风扇是否都在位。
  9. 1)Y=>6
  10. 2)N=>5
  11. 增加风扇数量=>6。
  12. 通过命令display fan查看风扇的各种状态信息,检查风扇是否发生故障。
  13. 1)Y=>7
  14. 2)N=>8
  15. 更换发生故障的风扇=>8。
  16. 通过display temperature all命令查看设备的温度情况,检查温度是否过高。
  17. 1)Y=>9
  18. 2)N=>10
  19. 请通过收集信息并联系技术支持。
  20. 结束。

确认故障排除的方法

在网管上不再出现该告警。

使用命令display trapbuffer查看Trapbuffer中的内容,不再有该告警产生。

使用命令terminal monitorterminal trapping打开屏显告警,不再有该告警产生。

4.执行命令display cpu-usage查看设备CPU占用率的统计信息。一般情况下,如果系统CPU占用率长时间运行时不超过80%,短时间内不超过95%,不是持续升高,且未产生CPU占用率过高的告警,可认为处于正常范围。超过80%且产生CPU占用率过高的告警时,请参考解决问题。

<Huawei> display cpu-usageCPU Usage Stat. Cycle: 10 (Second) CPU Usage Stat. Time : 2013-09-24 10:11:55 Control Plane CPU Usage: 23.3% Max: 100% User: 10.7% System: 6.9% SoftIrq: 0.0% HardIrq: 5.5% Idle: 76.7% CPU utilization for ten seconds: 23.3% one minute: 22.0% five minutes: 23.0% . Data Plane CPU Usage: 1.7% Max: 100% CPU utilization for ten seconds: 1.7% one minute: 1.6% five minutes: 1.6% . PID ProcessName CPU% CoreIndex Runtime State 194 cap32 1.7% CPU1 26132042 R 193 vrp 20.0% CPU0 11216335 S .....

当设备CPU占用率过高时,可观察设备或网络是否存在以下情况:

  1. 设备CPU占用率是持续高还是瞬间变高。瞬间变高可能是因为某个操作导致,比如设备刚启动、在某一时间点集中读取光模块信息、瞬间流量增多等,一般不影响设备运行。
  2. 查看是什么任务进程导致了CPU占用率过高,对该任务进行分析。
  3. 查看日志和告警信息,确定是否存在硬件故障告警。
  4. 通过日志或者告警查看设备上是否存在端口频繁Up/Down的情况,如果存在,请检查端口上光模块是否发生故障,是否使用了华为非认证光模块。同时需要对端口配置和端口流量进行分析。
  5. 是否有网管频繁操作设备。
  6. 检查设备是否发生STP震荡或者路由协议震荡。
  7. 网络结构是否发生了变化,网络中是否存在环路。
  8. 网络上是否存在恶意攻击行为。

5.执行命令display version查看设备的版本信息。如果版本过低,请登录华为技术支持网站获取最新的版本,升级设备。以AR6120为例,选择“路由器”->“接入路由器”->“AR6000系列”->“AR6120”->“软件”,下载推荐的版本软件升级设备。

<Huawei> display versionHuawei Versatile Routing Platform SoftwareVRP (R) software, Version 5.120 (AR6300 V300R021C00)Copyright (C) 2011-2012 HUAWEI TECH CO., LTDHuawei AR6300 Router uptime is 0 week, 1 day, 5 hours, 10 minutesBKP 0 version information:1. PCB Version : AR01BAK2B VER.A2. If Supporting PoE : No3. Board Type : AR63004. MPU Slot Quantity : 15. LPU Slot Quantity : 8MPU 11(Master) : uptime is 0 week, 1 day, 5 hours, 10 minutesSDRAM Memory Size : 2048 M bytesFlash Memory Size : 16 M bytesNVRAM Memory Size : 512 K bytesSD Card1 Memory Size : 1882 M bytesMPU version information :1. PCB Version : AR01SRU3A VER.B2. MAB Version : 03. Board Type : SRU-400H4. CPLD0 Version : 104....

仅部分网页无法访问

故障现象

用户在上网过程中,发现仅部分网页无法访问或者访问慢,其他网页可以正常访问。

根因分析

如果有的网页可以访问,有的网页访问不了,这种情况大概率是由于报文分片参数配置不合理导致的。

操作步骤

  1. 执行命令display ip interface brief,查看公网接口是物理接口还是Dialer接口。
<Huawei> display ip interface brief*down: administratively down ^down: standby (l): loopback (s): spoofing (E): E-Trunk down The number of interface that is UP in Physical is 2 The number of interface that is DOWN in Physical is 3 The number of interface that is UP in Protocol is 2 The number of interface that is DOWN in Protocol is 3 Interface IP Address/Mask Physical Protocol Atm0/0/0 unassigned down down Bridge-if10 unassigned down down MFR0/0/1 unassigned down down NULL0 unassigned up up(s) GE0/0/1 x.x.x.x/24 up up 

2.如果是物理接口,则在物理接口视图下执行命令tcp adjust-mss配置接口的TCP最大报文段长度,推荐数值为1200。

<Huawei> system-view[Huawei] interface GigabitEthernet 0/0/1[Huawei-GigabitEthernet0/0/1] tcp adjust-mss 1200 [Huawei-GigabitEthernet0/0/1] quit

3.如果是Dialer接口,则在Dialer接口视图下执行命令tcp adjust-mss配置接口的TCP最大报文段长度,推荐数值为1200,并执行命令mtu配置接口的最大传输单元值为1492。

[Huawei] interface Dialer 0[Huawei-Dialer0] tcp adjust-mss 1200[Huawei-Dialer0] mtu 1492[Huawei-Dialer0] restart[Huawei-Dialer0] quit[Huawei] quit

更换为PPPoE拨号上网后,有线用户无法上网,无线用户可以

故障现象

用户使用AR作为出口网关,上网业务正常。现由于业务需要,用户想更换为PPPoE拨号上网。更换后,用户访问有线网络不通,无线网络正常。

根因分析

Dialer接口下配置的mtutcp adjust-mss参数值一致导致PPPoE拨号失败,用户无法上网。

操作步骤

  1. 在Dialer接口视图下,执行命令display this,查看Dialer接口下配置的mtutcp adjust-mss参数值。
<Huawei> system-view[Huawei] interface dialer 1[Huawei-Dialer1] display this#link-protocol pppppp chap user aaaaaaaaaappp chap password cipher %@%@B`)sN)(^6*fNn=T,"9uK,eE%%@%@ppp pap local-user aaaaaaaaaa password cipher %@%@B`)sN)(^6*fNn=T,"9uK,eE%%@%@ppp ipcp dns admit-anyppp ipcp dns requestmtu 1200tcp adjust-mss 1200ip address ppp-negotiatedialer user arwebdialer bundle 1dialer-group 1nat outbound 2998#

2.执行命令undo mtu,将Dialer接口的MTU值恢复为默认值,并重启Dialer接口解决故障。

[Huawei-Dialer1] undo mtu[Huawei-Dialer1] restart[Huawei-Dialer1] quit[Huawei] quit

仅一个网段的用户无法上网

现象描述

某企业使用AR作为出口网关,网络管理员发现有一个连续网段的用户始终无法上网,其他网段用户上网正常。

原因分析

公网接口上配置的NAT里绑定的ACL规则中deny掉了192.168.1.0/24网段的IP地址,导致该网段的所有用户都无法上网。

操作步骤

  1. 在公网接口视图下,执行命令display this,查看公网接口上配置的NAT里使用的ACL。
<Huawei> system-view[Huawei] interface GigabitEthernet 0/0/1[Huawei-GigabitEthernet0/0/1] display this#tcp adjust-mss 1200ip address x.x.x.x 255.255.255.252nat outbound 2999#[Huawei-GigabitEthernet0/0/1] quit

2.进入ACL视图,执行命令undo rule,删除deny规则。

[Huawei] acl name GigabitEthernet0/0/1 2999 [Huawei-acl-basic-2999] display this#rule 5 deny source 192.168.1.0 0.0.0.255 rule 6 permit source 192.168.2.0 0.0.0.255 #[Huawei-acl-basic-2999] undo rule 5[Huawei-acl-basic-2999] quit[Huawei] quit

多链路PPPoE拨号场景,一条链路拨号失败后用户无法上网

故障现象

用户使用AR作为出口网关,为了提高稳定性,用户使用多条链路PPPoE拨号上网。但是当其中一条链路拨号失败时,用户无法通过其他链路上网。

根因分析

一条PPPoE链路拨号失败后,该条链路对应的Dialer接口没有Down掉,导致该Dialer接口的默认路由仍然生效。用户的上网流量仍走这条有问题的链路,导致用户上网失败。

操作步骤

  1. 执行命令display ip interface brief,查看Dialer接口与IP相关的简要信息,包括IP地址、子网掩码、物理链路和协议的Up/Down状态等。
<Huawei> display ip interface brief*down: administratively down ^down: standby (l): loopback (s): spoofing (E): E-Trunk down The number of interface that is UP in Physical is 2 The number of interface that is DOWN in Physical is 3 The number of interface that is UP in Protocol is 2 The number of interface that is DOWN in Protocol is 3 Interface IP Address/Mask Physical Protocol Dialer1 unassigned up up(s) Dialer2 100.64.40.165/32 up up(s) 

2.执行命令display ip routing-table查看IPv4路由表的信息。

<Huawei> display ip routing-tableRoute Flags: R - relay, D - download to fib, T - to vpn-instance------------------------------------------------------------------------------Routing Tables: Public Destinations : 31 Routes : 32 Destination/Mask Proto Pre Cost Flags NextHop Interface 0.0.0.0/0 Static 60 0 D 0.0.0.0 Dialer1 Static 60 0 D 100.64.40.165 Dialer2

3.根据步骤1和步骤2查到的信息,可以看到Dialer1接口虽然拨号失败,未分配到IP地址,但是接口的物理和协议状态都为UP,导致Dialer1接口的路由仍然生效。此时,建议在每一个Dialer接口下配置命令dialer number 1 autodial,使Dialer接口拨号失败时转换为Down状态。

<Huawei> system-view[Huawei] interface dialer 1[Huawei-Dialer1] dialer number 1 autodial[Huawei-Dialer1] quit[Huawei] quit
声明:若水百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系youzivr@vip.qq.com