华人澳洲中文论坛

热图推荐

    不懂就问,Optus这次故障的判断、检测、诊断、排除和预防的思路和方法如何?

    [复制链接]

    2023-11-14 14:50:17 24760 39

    我对这种超大规模且去中心化的网络没具体概念,想请教各位大神,如果发生这类没遇到过且影响和后果巨大的故障,如何能争取尽可能地迅速、正确判断故障方向、检测、诊断、排除故障?

    我管的网络规模很小,且都有中心点,最坏的情况就是从最上面的路由器开始,拔出所有网线,一步一步地向下排查故障的所在,查到故障节点所在后,断开故障节点,恢复其他节点的网络和服务。然后继续在故障节点下面继续寻找直到找到故障所在的设备或设置,然后就是查日志,恢复备份、更换设备什么的排除故障,确认故障设备正常后,再连入网络恢复服务。最后就是查找出现故障的原因和预防的故障的方法,该升级就升级,该更新就更新,该淘汰就淘汰,避免同样的故障的再次发生。


    像Optus这种又成千上万的路由器且没有中心的超大规模的网络垮掉的故障,请问各位大神们,大致的故障的判断、检测、诊断、排除和预防的思路和方法如何?

    不需要也不可能让各位写论文,只要是相关思路和方法,哪怕只言片语或案例或链接什么的都可以,我自己学习。

    谢谢指教,回帖必加分。

    全部回复39

    h5qr25j1ak 发表于 2023-11-14 09:17:22

    h5qr25j1ak 沙发

    2023-11-14 09:17:22

    本人没有任何网络经验,感觉全部重启就完事了。估计插座开关也很多,花了十个小时才全部开关一遍
    Achilles9 发表于 2023-11-14 09:24:01

    Achilles9 板凳

    2023-11-14 09:24:01

    CEO的回答很诡异
    muzilee0939 发表于 2023-11-14 09:31:28

    muzilee0939 地板

    2023-11-14 09:31:28

    早上4点的outage,十有八九是planned work gone wrong,只能说到这里了
    如果是hardware failure 或者链路断了 早就能公布了
    邦妮助考中心 发表于 2023-11-14 09:39:35

    邦妮助考中心 5#

    2023-11-14 09:39:35

    论坛里面有人说也许在升级中把BGP改了,让request成倍的增加,最后把整个网络弄瘫痪了? 最后被迫手动重启?这是不可靠的小道消息,期待大神来回答
    cassias 发表于 2023-11-14 09:52:53

    cassias 6#

    2023-11-14 09:52:53


    同意,不会是一些过于幼稚的问题或者涉及内部安全管理的漏洞,所以没给公众解释?期待政府的调查结果
    freesuperman 发表于 2023-11-14 09:58:54

    freesuperman 7#

    2023-11-14 09:58:54

    如果是hardware failure 或者链路断了,据我所知,局部网络可能有问题,但在这种去中心化的网络,应该不会造成整个网络垮掉了。

    就算是planned work gone wrong,在有以万计的路由器的且已经断了的网络里,如何寻找故障点?那夜被执行的schedule tasks估计也至少是论万计的。
    q2s6g5c 发表于 2023-11-14 10:07:53

    q2s6g5c 8#

    2023-11-14 10:07:53


    我的问题就是如何在灾难刚开始的时候就能往BGP方向而不是其他方向排除,最后确定是BGP的问题后,又是如何大致确定那个或那些个路由器是故障的源头,要知道那时的网络,应该是ping都ping不通;没中心点,意味着你也没法通过拔网线去判断故障的大致范围。
    19530204 发表于 2023-11-14 10:20:55

    19530204 9#

    2023-11-14 10:20:55

    routing loop ,,,easy
    灰灰狼 发表于 2023-11-14 10:29:51

    灰灰狼 10#

    2023-11-14 10:29:51


    请教如何能很快地判断是routing loop的问题而不是其他的问题?如何在整个网络都断掉了情况下去寻找故障解点呢?应该不会是本地登录每一个网络上的路由器吧?
    星星小雪 发表于 2023-11-14 10:33:42

    星星小雪 11#

    2023-11-14 10:33:42

    一般情况下应该会有网络拓扑图的,这种大范围的网络中断应该不是硬件故障,大概率就是路由配置问题。 我不是网络工程师,只是通信从业人员
    hurricane--ww 发表于 2023-11-14 10:39:46

    hurricane--ww 12#

    2023-11-14 10:39:46

    我的判断是高级核心人员犯了低级错误。


    不过这里是干活的不拿钱,拿钱的不干活
    YANGSAI32168 发表于 2023-11-14 10:46:40

    YANGSAI32168 13#

    2023-11-14 10:46:40

    这种肯定是改了什么东西然后出错了
    然后网络挂了结果想回滚也滚不回去
    小颜 发表于 2023-11-14 10:57:43

    小颜 14#

    2023-11-14 10:57:43

    理论上这种事儿,至少有8+个节点骨干路由器中间的BGP起不来了,然后不停的和彼此的邻居协商,然后导致整个route table不停的更新,整个就没有稳定的时候。
    其实这种事儿多数情况下很容易找,但是操作这个更新的人过于自大,不相信自己眼睛看到的, 每次都不停的把问题推给别人。
    网络其实是挂不了,因为管理VLAN没有flooding,只能是整个troubleshooting的时候,过于自大了,才导致这么久。
    liguolei 发表于 2023-11-14 11:03:32

    liguolei 15#

    2023-11-14 11:03:32


    谢谢回复,就是说路由器的管理是走专用的VLAN,也有专用路由表,所以哪怕其他的网络都垮掉了,管理的VLAN还是可以正常操作的?

    白条先,回血加分。
    jiaowanyu 发表于 2023-11-14 11:08:24

    jiaowanyu 16#

    2023-11-14 11:08:24


    这是一定的。那些bastion jump server 都在独立的管理vlan的,这样即便所有的资源都耗尽。有点点资源QOS 管理console还是必须要保证的.
    seaandfish19 发表于 2023-11-14 11:23:22

    seaandfish19 17#

    2023-11-14 11:23:22

    关系到民生的公共系统必须要有影子工程备份,以确保公共系统不间断运行。比如供水供电供气和银行民航移动通信数据系统都是如此。
    jingshen 发表于 2023-11-14 11:33:36

    jingshen 18#

    2023-11-14 11:33:36

    现在电信公司的电话、短信、宽带服务都完全依靠同一个核心网吗?
    一下子全部服务都崩溃了让人难以相信。难道关键的电信服务没有一点冗余备份吗?
    就像有些关键场所即使电网断了,还有自备的柴油发电机能顶一阵子。
    forisl 发表于 2023-11-14 11:43:31

    forisl 19#

    2023-11-14 11:43:31

    我的一点体会:

    昨天开始,我最难以理解的是,固话、手机、宽带三个业务全部服务中断。以老的电信思维,这是绝无可能发生的,本来就是互相不通的三个系统。所以以为是基础用户验证出问题了。后来看修了十小时,那肯定就不是了,就百万级别的用户验证数据库,十个小时也太久了。

    后来醒悟了,固话、手机的语音,现在都是voip,所以表面上是三个业务,其实就是一个网,全是数据。加上传言BGP凌晨异常,一个小时几十万条更新请求被收到。初步结论是某个change引发了不可预知的后果。

    这网络工程师凌晨三点,估计迷迷糊糊,不知道是敲错了命令还是load错了脚本,估计等全网瘫痪他也崩溃了吧。
    即便如此,竟然要修十个小时也是离谱。optus的服务级别,在供应商那里都是最高级的。全网中断一个小时,所有厂商的核心工程师都会被叫醒远程上来看,就像上面说的,这种远程登录的网络是独立的,不受业务中断影响。

    在生产网没断的时候,不好搞,生产网已经全断了,应该很容易搞啊。想重启哪台都随意,反正都歇菜了。具体该重启哪台,什么顺序,都有灾备手册的啊。

    实在不明白为何搞了这么久。3-5小时可以理解。
    afti 发表于 2023-11-14 11:49:59

    afti 20#

    2023-11-14 11:49:59


    所有厂商的核心工程师都会被叫醒远程上来看

    他們都是用 optus, 之後大家一齊去買 telstra card
    把 telstra都拖下去了
    纱沙莎 发表于 2023-11-14 12:17:21

    纱沙莎 21#

    2023-11-14 12:17:21

    顺着网线找就是了
    milan451 发表于 2023-11-14 12:23:13

    milan451 22#

    2023-11-14 12:23:13

    根据以往的经验,这么大blast radius的outage十有八九是由planned network maintenance造成的。但一般这种情况在找原因的时候很容易,像楼上说的,找到change然后把change rollback就好了。如果是BGP或routing相关的问题,根据经验,一般outage不会这么长时间,reconverge routes不会花太长时间。但还有一个outage这么长时间的可能性就是Optus那边的问题已经解决了,但是所有用户同时连线,他们等于被DDoS了。

    如果他们有Problem Management的话,现在应该正在做Root Cause Analysis。但具体的技术原因他们是不会和用户share的,肯定就是一些很笼统的东西。

    我不是Optus的用户,但听说这次他们做的非常不好的一点是没有给用户提供regular updates,连他们自己的网站上都没有更新,他们的CEO也没有做好公关。
    nizehua 发表于 2023-11-14 12:28:46

    nizehua 23#

    2023-11-14 12:28:46



    全网都断了,家里网也断了,手机也断了,这工程师怎么去通知别人?
    想给同事打电话,估计发现同事也都是Optus手机。想开个troubleshooting的会也开不了。想rollback也肯定没网络远程。

    最后解决方案,多半是各网工们赶飞机,开车集体去数据中心现场修。
    ld38cpo 发表于 2023-11-14 12:40:31

    ld38cpo 24#

    2023-11-14 12:40:31

    这次最搞笑的是全网断,Optus内部肯定乱成一团,想想你所有同事手机网络都不工作。当天上午,很多Optus通信沟通都是whatsapp,哈哈哈哈
    wangshanyi 发表于 2023-11-14 12:49:20

    wangshanyi 25#

    2023-11-14 12:49:20

    一主二备三应急,再加上影子系统,肿么可能造成全网中断?
    angelvian 发表于 2023-11-14 12:53:06

    angelvian 26#

    2023-11-14 12:53:06

    管理上的问题太大了,各个方面都作的一塌糊涂。高层都不知道干什么吃的,关键时刻没一个方面是过关的。
    szgcf 发表于 2023-11-14 13:01:07

    szgcf 27#

    2023-11-14 13:01:07

    我们公司正在把所有的手机和网络切换到Optus去,以前是TELSTRA。不知道能省多少钱。
    手机已经换了,所以所有的紧急support电话都打不通了。网络本来下周还是啥时候要切换的,现在推迟了
    如果我们之前就切换完成了,可能很多人连这个新闻都看不利索了
    amandno1 发表于 2023-11-14 13:07:27

    amandno1 28#

    2023-11-14 13:07:27

    能出这样的状况 最根本就是管理问题
    喜郎 发表于 2023-11-14 13:17:56

    喜郎 29#

    2023-11-14 13:17:56

    猜猜是CEO/CTO下课?还是攻城狮下课?预防方法其实很简单:从上到下把某个南亚国家的雇员全开掉,换成负责任的员工。系统可靠性提高到99.99%.
    估计做不到。那就等下次吧。不是再次泄漏就是再次全网崩。
    the_doors 发表于 2023-11-14 13:32:07

    the_doors 30#

    2023-11-14 13:32:07


    趕緊去路上買1 dollars prepaid的card
    allen0338 发表于 2023-11-14 13:41:21

    allen0338 31#

    2023-11-14 13:41:21

    不是有内部人说, 设备太旧, 还要加速加量, 更新软件, 结果整个系统瓜了
    hgt820112 发表于 2023-11-14 13:50:03

    hgt820112 32#

    2023-11-14 13:50:03

    作为optus网络工程师,我被禁言了
    d2y8kzj 发表于 2023-11-14 13:56:10

    d2y8kzj 33#

    2023-11-14 13:56:10

    还真是卧虎藏龙,谢谢大神们的回复,容我慢慢领会慢慢加分。
    petalgu 发表于 2023-11-14 14:03:35

    petalgu 34#

    2023-11-14 14:03:35


    临时工。。。
    seven-26 发表于 2023-11-14 14:17:02

    seven-26 35#

    2023-11-14 14:17:02

    是不是华为以后要搞个路由器系统的GITHUB啊?如果允许,可以回滚。然后所有路由器重启,重新灌资料,也是很容易的事情。这样再不负责任的工程师,搞坏了,也不要紧。
    lingziyi 发表于 2023-11-14 14:30:12

    lingziyi 36#

    2023-11-14 14:30:12

    tftp多少年前就在用了,每次配置前先copy到tftp,出错回滚啥的,这些至少16~18年前已经如此了。  现在早就可以自动化了。
    乔玉 发表于 2023-11-14 14:35:35

    乔玉 37#

    2023-11-14 14:35:35

    我们路由器备份用rancid
    weisweetno1 发表于 2023-11-14 14:50:17

    weisweetno1 38#

    2023-11-14 14:50:17

    谁能看到这篇文章,说是RCA出来了

    http://www.smh.com.au/business/companies/inside-optus-day-from-hell-20231110-p5eiz0.html

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题8

    帖子44

    积分184

    图文推荐