UCloud物理云网关百G级集群设计实践

熵桥流沙
• 阅读 1649

物理云主机是UCloud提供的专用物理服务器,具备出色的计算性能,满足核心应用场景对高性能及稳定性的需求,也能和其它产品灵活搭配。物理云网关用于承载物理云和公有云各产品间的内网通信,由于用户有多地部署的必要,网关集群面临跨地域跨集群的流量压力。

我们用多隧道流量打散等手段解决了Hash极化造成的流量过载问题,并通过容量管理和隔离区无损迁移限制大象流。新方案上线后,集群从承载几十G升级为可承载上百G流量,帮助达达等用户平稳度过双十一的流量高峰。以下是实践经验分享。

一、流量过载的物理云

为了保证云上业务的高可用性,用户通常会将业务部署在不同地域。此时用户的物理云便需要通过物理云网关相互访问,不可避免地,物理云网关会承载大量物理云主机的跨集群访问流量。

与此同时,为了保证不同用户之间网络流量的隔离和机房内部的任意互访,物理云网关会对用户报文封装隧道,然后发送至接收方。

1、问题出现:Hash极化与过载的物理云

如下图,我们发现物理云集群2中网关设备e的带宽过载,影响了访问集群2的所有业务。通过监控进一步查看到,集群2的流量分布很不均匀,集群中部分设备带宽被打爆,但是剩余的设备流量却很小。通过抓包分析,网关设备e的流量几乎全部来自于物理云集群1。

UCloud物理云网关百G级集群设计实践

图:跨集群访问时封装隧道示意

结合业务分析,确定物理云过载的原因在于:物理云集群1和集群2之间的互访流量出现了Hash极化,导致流量分布不均。

那什么是Hash极化呢?

由于集群之间使用单条隧道传输,隧道封装隐藏了用户的原始信息,例如IP、MAC等,对外只呈现隧道信息,同时隧道采用了唯一的SIP和DIP。那么Hash算法相同,算出的结果一致,导致流量无法做到很好的负载分担,便会使集群的单台设备负载突增,极端情况下就会出现被打爆的现象,进而影响该集群下的所有用户,这就是Hash极化,常出现于跨设备的多次Hash场景。

根据现状,我们分别尝试从以下两个角度解决该问题:

① 如果用户流量可以打散,如何避免封装隧道后的Hash极化?

② 如果用户流量无法打散,又该如何防止“大象流”打爆物理云网络?

下面,我们分别从这两点出发研究对应的解决方案。

2、如何避免封装隧道后的Hash极化?

针对这个问题,起初我们提出了多个解决方案:

 方案1:用户流量由交换机轮询发送到集群每台设备。这种方法的优点在于流量可以充分打散,不会出现Hash极化现象。但同时缺点在于网络报文的时序被打乱,可能影响用户业务。

② 方案2:交换机基于隧道内层报文Hash。该方法基于用户的报文打散,优点在于可以较为均衡地打散在集群不同设备上。但问题在于用户报文封装隧道后会再次分片,将导致内层报文信息缺失和分片报文Hash到不同设备上。

③ 方案3:为集群每台设备分配单独的隧道源IP。该方法可以实现有效的流量打散,但由于隧道数量有限,Hash不均的问题在现网实际表现依旧明显。

以上三个方法均不同程度地存在缺点,不能完全解决Hash极化问题。通过一系列的研究,最终我们找到了一种多隧道解决方案。即打破网关的单隧道模式,所有的网关绑定一个网段的隧道IP,基于用户的内层报文信息Hash,并在预先分配的网段中选择隧道的SIP和DIP,保证不同流量尽可能分布在不同的隧道,从而将用户流量打散。

UCloud物理云网关百G级集群设计实践

图:多隧道解决方案示意

3、如何防止“大象流”打爆物理云网络?

多隧道方案的前提在于用户流量可以被打散,但是如果遇到“大象流”呢?即便是多个隧道也无法将避免被打爆的情况。面对用户的“大象流”,单靠技术手段还不够,我们同时也需要从硬件配置方面做好事前预防和规避。

■ 单机容量管理

首先需要对物理云网关进行合理的容量管理,保证网关可承载带宽高于用户物理云主机的带宽,同时保证整集群的承载能力满足用户需求。

UCloud物理云网关百G级集群设计实践

图:示例-将单机容量从10G调整为25G

这一点其实与云厂商自身的能力密切相关,目前UCloud网关集群单机的承受能力远远大于单个用户的流量,在承载多用户汇聚流量的情况下,仍能保证个别用户的突发“大象流”不会打爆网关。

■ 隔离区无损迁移

提升单机容量还远远不够,以防万一,UCloud还配备了隔离区,隔离区通常是无流量通过的。

UCloud物理云网关百G级集群设计实践

图:隔离区无损迁移

如上图,一旦监测到流量过大,存在集群被打爆的风险时,集群配套的自动迁移系统便会修改需要迁移的物理机数据库信息,并自动更新对应转发规则,部分业务流量便可通过隔离区分担出去。同时我们还会基于强校验技术对迁移结果进行自动验证,保证迁移业务的无损可靠。

4、实例:新旧方案下的用户应用对比

在新方案上线前,由于Hash极化现象,集群通常只能承载几十G的流量,并且不时出现过载的状态。

新方案上线后,如下监控图,可以看到流量基本在集群上打散,集群的优势得到了充分发挥,目前集群可以承载上百G的流量,充分抵御用户业务量突增时的风险。例如达达在双十一时60G的流量压力是普遍现象,突发时还会出现流量达到100G的情况,此时集群流量依旧转发正常,对业务毫无影响。

UCloud物理云网关百G级集群设计实践

图:流量监控图示意

除了提升性能,这次集群升级中对高可用设计也做了优化。

二、集群升级后的高可用性优化

针对集群升级,一般情况下会先部署新灰度集群,然后将用户业务逐步进行迁移。这样的好处在于可以在新集群版本存在缺陷的情况下,最大限度的控制影响范围,当出现故障时,可以及时回迁受影响的用户业务到老集群,避免用户业务受到影响。

UCloud物理云网关百G级集群设计实践

图:预期结果-新Manager接管灰度集群

在灰度过程中,曾发现一个问题。

在新集群Manager部署完毕后,由于配置错误导致灰度集群接管了旧集群,Manager基于配置文件的集群信息自动接管集群的控制,并直接下发配置信息,旧集群接受错误配置。由于旧集群和新集群配置差异较大,导致旧集群在解释新配置时有误,出现高可用异常。

UCloud物理云网关百G级集群设计实践

图:灰度Manager错误接管旧集群示意

1、风险分析

为了系统性避免这类问题,我们对配置过程进行了回溯分析,总结了存在的风险:

 部署人为干预多,会加大故障概率;

 程序的异常保护不够;

 集群之间的有效隔离不足,若故障影响范围大。

2、优化:自动化运维&程序优化&隔离影响

■ 自动化运维

自动运维化通过自动化代替人工操作,可以有效避免人为错误的发生。我们对集群部署流程进行了优化,将其分为配置入库部署两个流程,运维人员只需录入必要的配置信息,其余均通过自动化生成部署。

■ 完善校验和告警

此外,我们还对部分程序作了优化,加大对异常配置的校验。例如,配置加载前,首先需进行白名单过滤,如果发现配置异常则终止配置加载,并进行告警通知后续人工介入。

UCloud物理云网关百G级集群设计实践

图:白名单限制程序,只允许正确的控制面同步配置

■ 隔离影响

最后,不管自动化运维机制和程序自身多精密,总要假设异常的可能。在此前提下,还需要考虑在故障发生时如何最大程度地减少影响范围和影响时间。我们的解决思路如下:

 去除公共依赖

前次问题主要缘于集群所有设备同时依赖了异常的Manager,导致一损俱损。因此需要去除集群设备中的公共依赖,缩减影响范围。例如不同的集群绑定不同Manager,这样可以有效控制影响范围。当然集群的公共依赖不仅仅可能出现在Manager,也可能是一个IP、一个机架等,这就需要我们在实际项目中仔细甄别。

 设置隔离区在影响范围可控的情况下,一个Manager异常只会影响集群中的部分设备,在该情况下还应该迅速剔除异常设备或者直接迁移该集群下的所有用户到隔离区,争取最快时间排除故障。

总结

随着技术的发展和业务的扩张,系统架构越发复杂、关联度越发紧密,对技术人员的要求也越来越高。在物理云网关集群的开发过程中,不可避免会遇到很多“坑”,但是无论何时都需秉承一点:一切技术都是为了业务服务。为此,我们把方案设计的经验分享出来,希望能够给予大家更多思考与收获。

UCloud物理云网关百G级集群设计实践

点赞
收藏
评论区
推荐文章
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Peter20 Peter20
4年前
mysql中like用法
like的通配符有两种%(百分号):代表零个、一个或者多个字符。\(下划线):代表一个数字或者字符。1\.name以"李"开头wherenamelike'李%'2\.name中包含"云",“云”可以在任何位置wherenamelike'%云%'3\.第二个和第三个字符是0的值wheresalarylike'\00%'4\
Stella981 Stella981
3年前
Kubernetes源码探疑:Pod IP泄露排查及解决
作者:陈绥来源:UCloud(ID:ucloud\_tech)UK8S是UCloud推出的Kubernetes容器云产品,完全兼容原生API,为用户提供一站式云上Kubernetes服务。我们团队自研了CNI(Container Network Interface)网络插件,深度集成VPC,使UK8S容器应用拥有与云主机间等同的网络性能(目前
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
物理裸机配置如何转换为天翼云云主机配置
在IT系统建设中,软件平台厂商(ISV)给出的IT资源需求往往是物理机裸机配置。上云后怎么把物理裸机配置转变为云主机配置就成了一个需要认真考虑的问题。今天就来讨论一下这个问题。以应用服务器为例,假如软件平台厂商给出的是华为RH2288Hv3这样一款物理裸机,配置如下:拿到服务器配置后,首先我们要核对一下这款服务器的应用场景,确认在这个场景中是否能使用云主机
UCloud 借助 NVIDIA BlueField-2 DPU 赋能高可用性、弹性扩展的云盘存储
UCloud采用NVIDIABlueField2DPU在公有云中提供裸金属服务,提供极致的计算性能、完全的网络卸载和强大的云盘存储。UCloud裸金属服务采用NVIDIABlueField2DPU,满足客户高带宽、低时延的网络需求,并在公有云中提供裸金属服务。裸金属服务器相比虚拟机拥有极致的CPU性能,没有虚拟化的开销,避免多个租户争
DevOpSec DevOpSec
2年前
自建k8s集群之负载均衡使用
自建k8s而非云环境,组件mysql类(部分有状态服务)部署在虚机里也即集群外,业务服务部署在k8s集群内。需求:集群内、集群外,业务服务和组件相互间通过负载均衡、高可用的形式连通。此需求拆解成两个问题进行解决,接着往下看。集群内:k8s集群集群外:k8s集群外的应用部署在虚拟机或物理机环境
天翼云新一代V5云主机,Kvm之生,Xen之死!
天翼云发布了新一代V5云主机,基于intel最新发布的Intel®XeonSkylakeV5CPU的物理机及KVM虚拟化提供的全新云主机系列。计算性能较上一代(V4CPUXen虚拟化)提升15%左右,可以更高效的进行单、双精度浮点运算,适用于对计算性能有强需求的各种场景。这里重点要提的是采用了虚拟化平台KVM!曾经的真爱!记得2012年刚到云公
什么是专有云(专属)?
专有云是基于公有云网络进行服务集群独立部署,既能享受公有云的稳定链路服务,又具备资源隔离的优势。适用对象:高消息量、高并发、有实时数据监控服务诉求以及对品质有要求高的客户部署方式:在公有云上有独立的计算集群服务特点:自既能享受公有云的稳定链路服务,又具备资
天翼云弹性高性能计算Portal简介
天翼云官网已上线公有云弹性高性能计算(EHPC)产品,公有云EHPC产品主要由管理员控制,可进行创建集群、增删节点等操作,聚焦云上场景,可进行灵活、弹性的扩展。对于每一个集群,都有一个独立的portal。集群内portal与传统超算类似,更关注超算本身的业务,具有更好的私密性,不仅适用与公有云,同时也适用于私有云、混合云等业务。天翼云将云平台与传统超算相结合,满足不同用户群体的需求。
天翼云GPU云主机:共享信息技术与虚拟机的完美融合
GPU云主机是一种基于云计算技术的虚拟化服务器。它通过虚拟化技术将一台或多台物理服务器资源进行整合,形成一个共享资源池,从而提供弹性的云计算环境。在这个环境下,每个虚拟主机都可以独立运行,拥有自己的操作系统、存储空间和网络资源。与传统的云主机相比,GPU云主机最大的特点在于其配备了高性能的GPU计算卡,使得在进行大规模数据处理和复杂计算时能发挥出更强的计算能力。