华人澳洲中文论坛

热图推荐

    DeepFlow助力银行全栈云构筑云原生可观测性 保障零碎不乱平安运转

    [复制链接]

    2023-3-1 22:16:22 20 0

    原标题:DeepFlow助力银行全栈云构筑云原生可观测性 保障零碎不乱平安运转  
    配景  
    运用云化、云原生化是企业片面数字化转型的须要技术根底,光大银行2019年开始建立新一代全栈金融混合云平台,在引入了多种云计算中心技术的同时,也开始采取云原生集群架构为运用架构办事化革新提供平台撑持,跟着全行运用零碎的逐渐上云,全栈云的可观测性成为信息科技部关注的重点。  
    跟着云原生技术的运用,网络、零碎、运用运维均产生了反动性的变动,运用软件向微办事架构开展,微办事调用瓜葛繁杂,开发迭代速度放慢,零碎资源实时静态变动,云网黑盒化重大,运用迁徙上云之后的零碎不乱性、业务牢靠性保障面临微小应战。  


    图1 云原生运用的繁杂度(示例)  
    同时云原生根底设施与云原生运用的监控运维伎俩也面临得多新问题,详细包罗:  
    1. 微办事架构下多言语、多网络协定带来运用的埋点本钱高;  
    2. 微办事化致使业务调用链进程繁杂,全链路追踪难;  
    3. 运用交互跨容器、虚构机、宿主机多层,毛病定界难;  
    4. 网络门路交错繁杂、静态多变,逐段抓包难,毛病定位难;  
    5. 运用、零碎、云网的目标数据、日志数据、追踪数据、标签数据存在高基多维的特征,数据关联、剖析、呈现处置技术繁杂;  
    6. 云原生运用与云原生根底设施之间的数据存在鸿沟,不足一致的运维才能,致使运用监控运维与根底设施运维协同难度高,毛病处置效力低;  
    7. 运用从散布式架构向云原生迁徙过程当中,不足无效的工具撑持云原生运用的开发、测试、迁徙。  
    这些变动和应战给光大银行的IT运维、业务保障带来微小的难题,传统监控运维伎俩难以知足云技术改革配景下的运维需要,构建云原生一致可观测性平台就成为解决这种问题的必定技术选择。  
         DeepFlow云原生可观测性平台  
    在光大银行新一代全栈金融混合云平台的布局早期,技术团队即结合此前任务中的教训总结,将全栈云和云原生业务的片面可观测性列入到云平台的首要才能中,同步布局、同步验证、同步建立DeepFlow云原生可观测性平台。  
    总体计划中包罗了DeepFlow云原生轻量级收集探针和DeepFlow云原生可观测性剖析平台。  
    DeepFlow轻量级收集探针完成了对云原生可观测性数据的低本钱、片面收集,详细包罗:  
    1. 经过BPF技术对IAAS层、PAAS层及NFV网元(LB、NAT Gateway、散布式路由等)的虚构网络的全链路全流量收集才能,完成业务端到真个网络目标数据、追踪数据、日志数据的一致收集;  
    2. 经过eBPF技术构建对云原生运用无开发言语依赖、无开发框架依赖、无计算平台依赖的无侵入收集才能,完成云原生运用目标数据、追踪数据、日志数据一致收集;  
    3. 经过收集探针的凋谢接口,无缝汇聚Skywalking Agent的OpenTelemetry数据,完成云原生运用过程级的目标数据、追踪数据、日志数据的一致收集;  
    4. 经过容器平台的API才能,实时感知容器资源的静态变动,完成云原生资源、业务标签数据的一致收集。  
    DeepFlow云原生可观测性平台的中心技术和完成包罗:  
    1. 经过Autotag技术自动为一切观测数据注入一致的属性标签,打消数据孤岛问题,以释放数据的下钻切分才能;  
    2. 经过SmartEncoding技术将属性标签编码为整型值,在标签注入阶段间接注入整型标签,以10倍的效力晋升可观测性数据的存储、处置机能;  
    3. 经过高机能数据剖析引擎,对海量、高基、多维、异构的可观测性数据进行一致的标志、关联、剖析;  
    4. 经过运用调用链可视化追踪功用,完成对恣意一次云原生运用申请从业务代码到框架代码、运用过程、代理过程、容器网络、云网络、NFV网元、物理网络的全链路追踪、目标观测、日志剖析才能;  
    5. 经过网络可视化剖析功用,完成了对云网络、容器网络的从微观到宏观的拓扑可视化剖析、目标可视化剖析、云网流量追踪、网络日志回溯等全方位的洞察才能;  
    6. 经过NAT追踪功用,完成了面向NFV网元运维的可观测剖析才能。  


    图2 云原生运用调用链追踪  
    同时DeepFlow云原生可观测性平台完成了凋谢的可观测性数据同享接口,包罗:  
    1. 经过HTTP等规范接口完成告警事情与公司一致告警平台的对接;  
    2. 经过API接口完成了Grafana对可观测性数据的全自动调阅,从而经过Grafana构建跨平台的数据查问、呈现才能;  
    3. SQL查问接口完成了与Skywalking数据同享对接;  
    4. 经过云原生收集探针的原始流量散发功用,为买卖剖析、平安剖析提供容器网络流量的获得才能。  
    DeepFlow云原生可观测性平台完成了灵敏的视图定制化才能,运维人员构建面向业务的运维监测视图,将云原生业务的办事品质映照为8~10个黄金目标(负载类目标、时延类目标、机能/异样类目标),经过被动的机能目标监测完成了面向云原生运用不乱性、牢靠性的被动保障才能。  
    翻新性实战教训  
    跟着DeepFlow云原生可观测性平台的深化运用,在光大银行的全栈云及云原生运用运维中,经过少量的运维实战案例,充沛阐明了可观测性关于企业IT开发、运维、经营的微小价值,真正完成了云原生业务的洞察才能和不乱性保障才能的,在实际运维中云原生可观测性平台发扬了间接无效的作用:  
    1. 在某运用从传统散布式环境向容器平台迁徙任务中,开发测试环节发现该运用遇到机能压测显著受限的问题,经过传统的测试工具、APM工具在数周的定位过程当中均无奈找到问题根因,致使该运用的云原生迁徙进度重大碰壁,因此DeepFlow云原生可观测性平台紧迫减少对该环境的收集掩盖和剖析,在1分钟后实现了对该运用拜候瓜葛的绘制和运用调用追踪,在5分钟内经过目标剖析发现了微办事中的机能瓶颈点和机能瓶颈根因。  
    2. 在云上某次***业务异样的毛病定位中,需求损耗2名中级运维工程师数十个小时的任务量,进行Pcap抓包、读包定位,改用DeepFlow可观测平台提供的伎俩,经过1步绘制拓扑,8个目标观测,3端日志的关联剖析,在30分钟内肯定办事端软件异样,进而指点业务运维人员定位发现  
    3. RabbitMQ动静队列未及时处置,队列积存致使的运用同步形态异样问题。  
    4. 在某次云上数据库偶发性毛病定位中,经过1步绘制拓扑,5个目标观测,3分钟内的日志剖析,疾速界定出毛病源为数据库运用异样。  
    5. 在某次云上虚构机拜候欠亨的毛病定位中,经过1步绘制拓扑,3个目标观测,1分钟内的日志剖析,肯定是因为虚构机路由配置缺失致使。  
    完成价值  
    经过DeepFlow云原生观测性平台的构建,在光大银行的运维理论中,发生了微小的实战价值,包罗:  
    开云、网、运用“黑盒”  
    经过DeepFlow云原生观测性平台,关上了云网黑盒,关上了云原生平台的零碎黑盒,关上了云原生微办事调用的黑盒。  
    闪速毛病定责定界定位  
    DeepFlow云原生观测性平台的数据关联剖析、极简高效的数据呈现,完成了分钟级时延毛病定界,分钟级丢包毛病定位,分钟级业务异样毛病定界,疑问杂症的定位周期由数天缩短至30分钟内。  
    减速云原生迁徙  
    在理论中,咱们还发现经过可观测性不单单能减速光大银行线上出产毛病定位,晋升在线业务牢靠性,还可以助力光大银行开发、测试阶段的异样发现、异样定位,缩短开发周期,进步上线代码品质。  
    并且经过DeepFlow可观测性的疾速定界才能,可以厘清毛病界面,晋升光大银行外部对云、容器平台的牢靠性认可,晋升运用向云原生重构、迁徙的决心。  
    打破组织界限,构建融会一致运维才能  
    跟着云原生的开展,IT开发组织、运维组织的状态也正在疾速改革中,经过DeepFlow可观测性构建光大银行跨云、容器、网络、运用的一致可观测才能,买通了光大网络团队、云技术团队、运用运维团队三个组织的运维界限,经过一致、主观的可观测数据,为跨组织合作提供主观依据,晋升沟通效力,增加运维矛盾。  
    总结  
    在可观测性平台的建立过程当中,咱们也遇到得多应战和难题,好比可观测性概念推行遍及难,可观测性建立不足指点办法论和建立规范,用户组织架构与观测数据融会的矛盾。首先,关于可观测性概念用户遍及难的问题,咱们发现真正的缘故是可观测性概念笼统、对象宽泛、与监控区别不清、不足权衡规范。假如要高效力的推行可观测性,首先要站在用户的角度,结合场景,公道论述和布道可观测性。经过少量的技术经过与交流,咱们总结了简略易承受的可观测性定义:  
    可观测性定义1:源于监控,又不止于监控;源于运维,又不局限于运维。  
    可观测性定义2:经过海量、多源、异构数据(目标、追踪、日志)的获得、关联、剖析,最大化开掘IT零碎数据资产的价值(IT零碎大数据剖析、数据挖掘)。  
    其次,关于可观测性建立不足指点办法论和建立规范的问题,通过在可观测性平台建立的过程当中,咱们意识到可观测性的建立不是一朝一夕、欲速不达的,可观性平台的建立更要关注继续性、生长性,更要关注平台的如下几点才能:  
    1. 继续晋升,不停减少新数据源的才能  
    2. 继续晋升,不停裁减新标签关联的才能  
    3. 继续晋升,不停开掘新的数据价值的才能  
    最初,关于用户组织架构与观测数据融会的矛盾,中心在于可观测性关于组织中各个团队的价值和收益,咱们在DeepFlow可观测性平台的建立中,以价值为锚点,不停地推行、鼓吹运维数据买通、运维数据关联、运维数据融会的微小后劲和价值,从而不停争夺更多的团队和角色对可观测性的建立提供反对,从而构筑数据更为丰硕,使用功用更为弱小,数据价值更打的可观测性。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题20

    帖子31

    积分130

    图文推荐