0%

构建弹性网络之分布式负载均衡技术(三):案例与分析

本文首发于公众号中国金融电脑。“构建弹性网络之分布式负载均衡技术”系列的前两篇文章探讨了分布式负载均衡技术的基本概念与功能,以及其背后的关键技术和实现方法。作为本系列的最后一篇,本文聚焦金融、教育行业以及大型企业、政府机关等多个领域的典型应用场景,通过详实的案例分析,展示分布式负载均衡技术如何在实际业务场景中提升网络的可用性、可靠性、安全性,并量化该技术带来的性能提升和成本节约情况。

案例一:金融行业

以一家大型金融服务控股公司为例,该公司现有网络架构依赖于传统的硬件负载均衡设备管理四层流量,这些设备由多个厂商提供,每两台设备组成一个主备高可用集群。在四层负载均衡之后,公司采用基于NGINX进行二次开发的API网关构建了更为灵活的七层负载均衡,每个业务团队根据自身需求进行定制开发,并由网络团队统一部署和维护。

传统负载均衡架构给公司带来的挑战

  1. 运维人员成本高昂
    七层负载均衡运维人员的知识面偏向于应用层协议与服务器操作,而四层负载均衡设备往往需要运维人员熟悉特定厂商的产品特性和操作方法。团队成员的技能差异使得工具难以复用,最终导致运维团队规模扩大。
  2. 系统可用性降低
    七层负载均衡实例自身不具备高可用性,它是作为四层负载均衡中的上游服务器池实现集群化部署的,因此从以下方面影响了系统SLA。
  • 一是七层负载均衡实例的横向扩展在两层负载均衡系统中变得更加困难。
  • 二是会话保持算法需要在四层和七层两种不同的负载均衡系统中保持一致。
  • 三是配置变更时必须同步修改两层负载均衡的配置,所以变更与维护时间只能定在周中工作日的凌晨,以延长配置出错的补救时间。
  • 四是七层负载均衡自身故障的发现依赖于四层负载均衡的健康检查,通常这会有5秒以上的延迟。
  • 五是由于四层主备切换会导致长连接中断,因此该体系强制七层负载均衡统一使用短连接,以此降低连接中断概率。
  • 六是报文经历网络路径的延长,用户可感知的时延有所增加。
    上述因素共同作用,导致系统的整体可用性降低。
  1. 故障定位速度慢
    传统的四层负载均衡通常不支持开发人员直接使用,导致故障处理时BUG会在开发、测试、运维团队间反复传递。
    当传统负载均衡仅用于处理四层流量时,由于其不解析应用层协议,缺乏详细的应用层日志。包括两层负载带来的配置一致性问题,这些都延长了故障解决时间。

分布式负载均衡解决方案对网络架构的改进

采用分布式负载均衡解决方案将在以下五个方面改进公司的网络架构。

  1. 配置简化。该方案将四层和七层负载均衡功能进行合并,不再需要通过OA系统同步策略配置,使得业务变更速度更快,比如更改IP地址的时间从原来的几天缩短为几秒。
  2. 高可用性。分布式负载均衡实例具备内建的高可用性,能够不依赖外部组件迅速检测并恢复实例故障。
  3. 单一管理面。不再需要单独维护各类负载管理面,不同团队基于租户、角色在同一个平台上操作,使得开发、测试和运维团队能够根据各自角色协同工作,从而可降低学习成本、提升沟通效率,总体运营支出降低45%。
  4. DevOps自动化。分布式负载均衡基于开放API设计,简化了DevOps自动化流程,促进了持续集成和持续部署的实施,如原先物理设备的部署速度限制了多云架构的规模增长,而现在PaaS团队在三年内将IaaS节点扩大了30倍。
  5. 增强可观测性。分布式负载均衡提供了更全面的可观测和监控分析能力,故障排除时间节省50%~60%。
    分布式负载均衡方案替换传统负载均衡架构是一个较为漫长的过程,通常会按照产品线逐一替代。而在这个过程中,分布式负载均衡可以先将传统负载均衡统一纳管(如下图所示),以降低还未替换到的传统负载均衡设备的管理成本。

分布式负载均衡统一纳管第三方传统负载均衡

案例二:大型企业

某家全球布局的大型企业在多个关键地区部署了数据中心,面对激烈的市场竞争和多种类的应用,该企业依赖高效的负载均衡技术快速推出新服务,确保能够迅速在全球范围内响应市场变化。

采用传统负载均衡技术带来的问题

最初,该企业采用了传统负载均衡技术,这导致企业面临以下问题。

  1. 应用上线速度慢。由于开发、测试与生产环境内的各负载均衡设备由专有的网络团队运维,因此研发团队在产品开发各阶段都要通过OA系统申请负载资源,各阶段的审核、反复测试以及资源配置的复杂性拖慢了应用上线速度。
  2. 静态IT成本高昂。每套负载均衡设备都预留了业务团队预估的最大网络吞吐量,然而实际流量往往远低于预估值,加之各业务团队倾向于高估峰值流量,以及传统负载主备集群中备机的资源浪费情况,导致数据中心的负载均衡成本居高不下。
  3. 无法应对突发流量。面对突发流量,企业只能通过手动升级负载硬件或迁移业务来应对,这一过程既耗时费力,也容易因为出错而导致系统故障,常常错失业务增长的良机。

分布式负载均衡解决方案带来的改善

该企业引入分布式负载均衡解决方案后,上述问题得到了显著改善。

  1. 提升应用上线速度。分布式负载均衡提供了统一的管理平台,支持多租户和多角色的使用,使得开发、测试和运维团队能够在同一管理面上协同工作。这种协同作业机制显著缩短了应用的上线流程,将应用推出时间从原本6~12个月缩短至4周左右。
  2. 降低静态IT成本。不同于传统的主备模式,分布式负载均衡采用多活VIP,并结合N+1集群架构来实现灾备,有效避免了传统负载均衡双机集群下的备机资源浪费。此外,多条业务线能够共享同一个转发引擎集群,可进一步降低企业总体拥有成本(TCO),最终负载均衡x86 CPU核心数降低了40%。
  3. 自动化应对突增流量。面对业务流量的急剧增加,分布式负载均衡能够根据CPU利用率自动扩展处理能力,通过增加转发引擎、扩展VIP容量或在集群中迁移业务自动应对流量高峰。这种自动化的弹性扩展机制确保了业务的连续性。

通过采用分布式负载均衡解决方案,该企业能够更加灵活高效地管理其全球负载均衡需求,同时提高了业务响应速度和成本效益。

案例三:教育行业

某大学作为一所以跨学科综合性教育而著称的知名高校,长期处于技术创新前列。该大学IT网络团队负责为师生及用户提供关键的IT基础服务,以前瞻性思维践行“一切即服务”战略,不断追求服务的最优化。
该团队先前使用的传统负载均衡设备在学生入学等服务高峰流量时遇到了性能瓶颈问题。此外,每次版本升级均伴随着主备迁移带来的连接中断风险。

该团队负责人认为大多数系统故障都源于资源配置变更时的人为错误,于是推动团队采用分布式负载均衡解决方案,以期与当前的DevOps体系更好地结合,实现高度自动化和优化运维流程。采用该方案后,该大学网络系统具备了以下优势。

  • 一是高度自动化。该方案采用API驱动的自动化配置和管理方式,大幅降低了运维人员的工作量,提高了资源配置效率。由于资源配置是结构化和模板化的,更方便业务间复用。
  • 二是灵活的扩展性。每个转发引擎实例都支持单臂或者双臂部署,而整个分布式负载均衡系统则支持云原生架构,具备弹性伸缩能力,能够根据业务需求动态调整资源,实现按需分配。
  • 三是丰富的功能。该方案支持双栈IPv6、HTTP2、QUIC等高效协议,同时,除了传统的负载均衡功能外,还支持静态资源服务,可以将原先部署在NGINX等应用服务器上的功能整合到负载均衡设备上,从而简化系统架构,提高系统性能。如图2所示,分布式负载均衡的虚拟服务上可以直接部署静态资源包,并可针对相应规则下的流量返回映射后的静态文件。

分布式负载均衡设备上的业务监控

  • 四是强大的可观测性。基于分布式系统设计的转发引擎可以与服务器协同提供全链路监控,从客户端到服务器、从应用层到数据链路层,实现对整个系统的实时监控和分析。
  • 五是智能流量调度。该方案通过灵活的分发规则与分发策略,可实现AB测试、灰度发布、温暖上线等动态流量调度。服务器池内还可以配置不同优先级和权重的二级虚拟组,协同负载均衡算法实现更精细化的流量控制。
    通过采用分布式负载均衡解决方案,该大学成功提升了IT服务的性能和可靠性,同时降低了运维成本,提升了用户体验。

案例四:政府机关

政府机关作为社会管理和服务的重要机构,其网络架构的安全性、稳定性和可扩展性尤为关键。而在全栈自主可控过程中,负载均衡设备的替换更是不可或缺的一环。在这一背景下,某政府机关采取了前瞻性的技术升级策略,从传统的硬件负载均衡向更为先进的分布式负载均衡迁移,以满足日益增长的网络服务需求,应对愈发严峻的网络安全挑战。

  1. 采用传统负载均衡带来的问题
    在当前严峻的网络安全形势下,政府机关对网络的安全性有着非常高的要求,而传统硬件负载均衡设备功能固定,难以应对快速变化的网络环境和业务需求。
  2. 分布式负载均衡解决方案带来安全能力提升

针对上述挑战,该政府机关决定引入分布式负载均衡解决方案,以提升其安全能力。

该政府机关通过与专业安全厂商的紧密合作,在分布式负载均衡层面实现了对网络流量的精细化控制和管理。分布式负载均衡系统内建了多项安全功能,包括黑白名单、请求限速、并发连接限制和防盗链等,这些功能足以满足大多数常规安全场景的需求。

对于安全性要求更高的特定场景,分布式负载均衡能够通过OpenAPI与专业安全解决方案无缝协作(如下图所示),这种协同工作机制允许安全产品直接在负载均衡层面区分正常用户流量和潜在的攻击流量。

分布式负载均衡与专业安全厂商的协同工作流程

当安全产品通过单一管理面订阅某业务的日志或者镜像流量后,转发引擎会依据规则将它们直接推送给安全系统,安全系统经过数据清洗、特征提取和行为分析后,可以通过OpenAPI向管理面下发规则,所有转发引擎会基于这些策略规则处理流量。例如,可以在上游应用服务器返回的某些HTML页面中注入JavaScript脚本,用于监测用户行为并收集信息,必要时可直接在浏览器端诱导攻击者执行特定的操作,从而使其暴露攻击意图。

当安全系统明确发现攻击者后,可以将相应的源IP集合更新到分布式负载均衡,转发引擎会根据规则及时处理。例如,既可以让转发引擎直接丢弃攻击报文,也可以将攻击流量重定向到某个隔离的网络区域进行处理,还可以结合分布式负载均衡上的静态资源服务部署蜜罐系统,进一步分析攻击者的行为。

由于分布式负载均衡的VIP可同时由数十个转发引擎提供服务,因此它的防DDOS攻击能力远强于传统负载均衡。通过集成化的安全策略和自动化的流量管理,该政府机关能够更有效地防御网络攻击,从而保障关键网络资源和数据的安全。

此外,在软件方面,分布式负载均衡解决方案兼容多种信创体系架构,能够部署在基于x86架构的CPU(如海光)或ARM64架构的CPU(如鲲鹏)上;同时,支持在OpenEuler、统信UOS、麒麟等操作系统上运行,确保了该方案与国内技术生态的兼容性。在TLS/SSL安全协议方面,分布式负载均衡不仅支持国际标准算法,还特别增加了对SM2、SM3、SM4等国密算法的支持功能,进一步强化了信息传输的安全性。

通过前瞻性的技术升级,该政府机关显著提升了网络的安全性、稳定性和可扩展性,为数字化转型提供了坚实的技术基础和安全保障。

总结

本文深入探讨了分布式负载均衡技术在多个重要领域的实际应用,凸显了其在增强系统可用性、加速新应用部署、快速定位故障、降低IT基础设施成本、有效应对流量高峰、降低运维开支、加强网络安全、支持全栈自主可控,以及提供多样化功能等方面的显著优势。这些应用案例充分证明了分布式负载均衡技术的价值和巨大潜力。

本系列文章的深入分析揭示了分布式负载均衡在现代网络架构中的重要作用。未来,分布式负载均衡将为技术创新和行业应用带来更多的可能性。