“翼”展锋芒,天翼云高性能计算领域论文被IEEE HPCC 2025收录!

天翼云开发者社区
• 阅读 4

近日,由天翼云科技有限公司基础架构事业部(操作系统技术部)高性能网络研发团队撰写的论文《APSCC: Adaptive Congestion Control for Packet-Sprayed RDMA Networks in AI Clusters》被2025年第27届IEEE国际高性能计算与通信会议(HPCC)高分录用。这标志着天翼云在高性能网络与人工智能集群通信领域的核心技术已达到国际领先水平,体现了天翼云在自主创新方面的强大实力。

“翼”展锋芒,天翼云高性能计算领域论文被IEEE HPCC 2025收录!

IEEE HPCC是高速网络领域内享有盛誉的国际学术会议,获中国计算机学会(CCF)推荐,并受到IEEE、IEEE计算机协会和IEEE可扩展计算技术委员会(TCSC)大力支持。会议对论文评审严格,近三年平均接收率仅为17%。此次论文的成功收录,再次彰显了天翼云作为云服务国家队在高性能网络与人工智能集群领域的前沿技术实力与持续创新能力。

随着大型语言模型(LLM)训练对远程直接内存访问(RDMA)的依赖加深,高效数据传输成为可能。然而,LLM训练流量的稀疏性和带宽密集特性,在等价多路径(ECMP)路由下,可能导致严重的负载不均衡问题。例如,ECMP路由机制在分配流量时可能无法有效识别和处理带宽密集型的大数据流,从而加剧了链路拥塞,出现严重的负载不均衡问题。数据包喷射(Packet Spraying, PS)通过将流量分散到多条路径,为这一问题提供了一种有前景的解决方案,但它对网络拥塞动态的影响还缺乏系统性研究。

本次被收录的论文基于NS-3仿真平台,深入研究了人工智能(AI)集群环境下的数据包喷射机制,系统评估了在拥塞分布、数据包重排序以及流完成时间等方面的性能影响。研究结果表明,拥塞模式随工作负载强度和拓扑超额订阅比例的变化发生显著改变,而现有拥塞控制方案难以有效适应通用包喷洒(PS)网络中路径和拥塞热点频繁动态变化的场景。 针对上述问题,本研究提出了一种名为APSCC的新型拥塞控制算法。该算法通过乱序(OoO)数据包推断拥塞位置,并跨路径聚合显式拥塞通知(ECN)信号,实现精确的速率控制。如下图所示,APSCC由三个核心组件构成:发送方、网络和接收方。

“翼”展锋芒,天翼云高性能计算领域论文被IEEE HPCC 2025收录! 算法概要流程

(1)发送方负责发送数据包,并执行拥塞控制的主要响应逻辑,包括目标阈值计算和窗口更新; (2)交换机在队列深度超过预设阈值时,对数据包进行ECN标记; (3)接收方则维护每个队列对(QP)上ECN标记数据包的统计信息,并将累积的ECN标记数量嵌入至确认包中。

发送方在接收到ACK后触发APSCC算法,该算法基于以下三个关键输入运行:(1)传输层报告的乱序距离;(2)ACK中传递的ECN标记数量;(3)当前ACK事件所确认的数据包数量。

为进一步在统一ECN标记阈值下实现交换机间的公平性与收敛性,APSCC采用动态计算公式来确定目标ECN比率。如下图所示,该阈值函数以当前拥塞窗口大小作为主输入参数:窗口增大时,阈值相应降低,使发送方能够更迅速地响应拥塞并倾向于降速;相反,拥塞窗口较小的流则被分配较高阈值,从而获得更大容忍度与更多速率增长机会。 “翼”展锋芒,天翼云高性能计算领域论文被IEEE HPCC 2025收录! 动态目标值计算曲线

该机制内置负反馈作用,显著增强系统稳定性。当流因阈值过于敏感而导致窗口过度缩小时,随之升高的阈值将抑制进一步缩减,促使窗口恢复正常水平。同样,在加法增加阶段,也展现出良好的自稳定特性:随着各流逐渐收敛至公平窗口大小,竞争QP之间的同步行为共同作用,有效稳定了拥塞交换机的队列占用率。

论文实验结果表明,与现有先进机制相比,APSCC能够将模型训练时间最多缩短30%,展现出优越的综合性能。 目前,APSCC是天翼云自主研发的一款面向智算网络的高性能拥塞控制算法,专为当前大规模人工智能训推基础设施设计。该算法具备包粒度负载均衡下的自适应流量调度能力,通过对网络时延与吞吐量的协同优化,能够在高速RDMA环境中显著提升模型训练与推理任务的效率,帮助企业充分释放底层网络性能潜力,为AI业务提供高效、稳定的运行支撑。

在AI大模型迈向万卡级集群的背景下,网络性能已成为制约训练和推理效率的关键瓶颈。未来,天翼云将深入贯彻落实创新驱动发展战略,紧密结合科技创新,积极探索前沿技术,在关键核心技术领域不断取得新突破,为筑牢国云底座、助力数字强国建设贡献更多力量。

点赞
收藏
评论区
推荐文章
畅享高性能计算!天翼云HPC解决方案来了
6月15日,“天翼云HPC解决方案加速企业数字化转型”专题讲座在线上召开,天翼云科技有限公司高级解决方案经理梁小彪、天翼云科技有限公司高级工程师孙晓宁作为主讲人,分别对天翼云HPC解决方案及应用、天翼云高性能计算产品做了分享。在十四五规划与双碳目标的驱使下,高性能计算的技术研发越来越重视低碳减耗。随着互联网应用场景不断拓展,数据流量爆发式增长,企业对高性能
天翼云4.0来了!千城万池,无所不至!
国际数字科技展暨天翼智能生态博览会天翼云论坛在广州举办。大会现场天翼云推出了全新品牌形象,对全面升级的天翼云4.0分布式云进行详细解读。中国电信集团有限公司副总经理唐珂与天翼云科技有限公司总经理胡志强共同进行天翼云品牌的升级发布。 中国电信集团有限公司副总经理唐珂发表致辞,他指出,天翼云全面升级到天翼云4.0,实现了一云多态、一云多芯、一张云网、一致架构、统
天翼云加码边缘计算,让普惠算力触手可及!
8月25日,亚太内容分发大会暨CDN峰会在京召开。大会汇集CDN产业领军企业,聚焦产业前沿科技突破,共同探讨边缘计算发展趋势与创新应用。天翼云科技有限公司高级研发经理张其栋出席“边缘计算论坛”并发表主题演讲,分享了天翼云边缘计算的发展规划与实践案例。天翼云科技有限公司高级研发经理张其栋当前,边缘计算发展势头强劲,Gartner预计到2025年将有超过75%的
彰显科技硬实力!天翼云论文在国际顶刊JoCCASA发表!
近日,由天翼云科技有限公司云网产品事业部混合云团队完成的论文《MultivariateTimeSeriesCollaborativeCompressionforMonitoringSystemsinSecuringCloudbasedDigitalTwin》在云计算领域国际知名学术期刊JournalofCloudComputing:Advances,SystemsandApplications(JoCCASA)发表。
再获权威认可!天翼云论文被IEEE/ACM CCGrid收录
近日,由天翼云弹性网络开拓者团队撰写的《TowardsBetterQoSandLowerCostsofP4EIPGatewayattheEdge》论文被The24thIEEE/ACMInternationalSymposiumonCluster,Cloud,andInternetComputing (CCGrid2024) 长文收录。
登上国际舞台!天翼云P4 EIP网关流量管理创新方案亮相CCGrid 2024!
5月8日,第24届IEEE/ACM集群、云和互联网计算国际研讨会(CCGrid2024)在美国费城隆重举行。来自中国、美国、印度、法国等国家的学术及产业界代表齐聚一堂,围绕云计算相关议题进行深入探讨和交流,并带来最前沿的技术展示。天翼云云网产品事业部弹性网络产品线总监侯叶飞出席大会硬件系统和网络分论坛,对本次被CCGrid长文收录的论文《TowardsBetterQoSandLowerCostsofP4EIPGatewayattheEdge》进行专业解析,并分享了天翼云在开放数据中心网络及可编程网关领域的创新与实践经验,再次彰显了天翼云的技术创新实力。
“翼”鸣惊人,天翼云两篇论文被ACM ICPP 2024收录!
近日,由天翼云科技有限公司弹性计算产品线天玑实验室撰写的两篇论文《PheCon:FineGrainedVMConsolidationwithNimbleResourceDefragmentationinPublicCloudPlatforms》及《Yggdrasil:ReducingNetworkI/OTaxwith(CXLBased)DistributedSharedMemory》被ACMInternationalConferenceonParallelProcessing(ICPP)收录。
国际“论”剑!天翼云数据库论文被EDBT收录!
近日,由天翼云数据库团队、中国电信云计算研究院和深圳北理莫斯科大学合作完成的《Taste:TowardsPracticalDeepLearningbasedApproachesforSemanticTypeDetectionintheCloud》(构建云上基于深度学习的大规模语义类型识别系统)论文被28thInternationalConferenceonExtendingDatabaseTechnology(EDBT)长文收录。
天翼云出席DCIC2025,“翼立方”创新力拉满!
近日,由中国通信企业协会主办的DCIC2025(第14届)数据中心产业发展大会在北京召开。大会以“共筑算力基石,护航产业生态”为主题,邀请众多知名算力企业代表以及生态合作伙伴代表,共探算力基础设施高质量发展路径。天翼云科技有限公司基础架构事业部研发专家刘伟
攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!
近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL:CostEfficientJointDeviceNetworkLoadBalancingforLLMTraininginRoCEbasedIntelligentComputingNetw
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
929
粉丝
16
获赞
40