|
forisl
发表于 2023-11-14 11:43:31
我的一点体会:
昨天开始,我最难以理解的是,固话、手机、宽带三个业务全部服务中断。以老的电信思维,这是绝无可能发生的,本来就是互相不通的三个系统。所以以为是基础用户验证出问题了。后来看修了十小时,那肯定就不是了,就百万级别的用户验证数据库,十个小时也太久了。
后来醒悟了,固话、手机的语音,现在都是voip,所以表面上是三个业务,其实就是一个网,全是数据。加上传言BGP凌晨异常,一个小时几十万条更新请求被收到。初步结论是某个change引发了不可预知的后果。
这网络工程师凌晨三点,估计迷迷糊糊,不知道是敲错了命令还是load错了脚本,估计等全网瘫痪他也崩溃了吧。
即便如此,竟然要修十个小时也是离谱。optus的服务级别,在供应商那里都是最高级的。全网中断一个小时,所有厂商的核心工程师都会被叫醒远程上来看,就像上面说的,这种远程登录的网络是独立的,不受业务中断影响。
在生产网没断的时候,不好搞,生产网已经全断了,应该很容易搞啊。想重启哪台都随意,反正都歇菜了。具体该重启哪台,什么顺序,都有灾备手册的啊。
实在不明白为何搞了这么久。3-5小时可以理解。 |
|