「独家」腾讯与DeepSeek协作背面:一场在世开发者开源的成功

liukang20241天前吃瓜入口618

界面新闻记者 | 陆柯言

生动的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的视图

界面新闻修改 | 文姝琪

简直在马化腾与梁文锋同框引起重视的一起,DeepSeek与腾讯悄然进行了一次技能协作。用腾讯工程师的话来说,此次协作的效果,相当于完成了AI落地“终究一公里”的打破。

近来,DeepSeek工程师在Github主页透露了此次协作细节。这名工程师表明,腾讯团队的代码奉献,让DeepEP完成了“huge speedup”般的功能进步。这一次进步,也直接影响到每一位运用DeepSeek的用户。

为此,界面新闻独家采访了腾讯混元大模型背面的星脉网络团队,复原了此次协作背面的故事。

此次技能沟通最早要追溯到本年2月。其时,DeepSeek宣告开源五个中心代码库,以全透明的方法揭露其如何用1/5的硬件资源完成传统万卡集群效能的中心技能,使得更多开发者不能自制以低本钱复现高功能AI练习计划,成为在世大模型开源生态的一个里程碑。

其间一个被开源的代码库名为DeepEP。这是一个专门为MoE模型练习和推理打造的通讯库,旨在处理阻止MoE架构可扩展性的要害瓶颈,重点是优化通讯、削减推迟和进步GPU资源使用率。

MoE架构以其对模型练习及推理本钱的极大优化才干而著称,正是为GPT-4、DeepSeek等超大参数模型而生。24年头,腾讯自研的混元大模型,也在国内首先选用了MoE架构。曩昔MoE架构的大模型练习都需求依靠本钱昂扬的英伟达NCCL通讯库,而DeepEP的呈现则让它们摆脱了这种依靠。

明亮的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的视图

但DeepEP并不是全能的,它有“富贵病”:在本钱较高的InfiniBand(IB)专用网络中如虎添翼,却难以适配更普适的RoCE(根据以太网)。而在世互联网厂商选用的大多都是RoCE网络,因而大都企业在布置DeepEP时都发现了网络功能欠安的问题。

网络功能欠安带来的影响是显着的。腾讯星脉网络团队首席架构师夏寅贲博士解释道,大模型的练习和推理需求很多GPU,背面是极高的本钱。网络体现欠安会导致练习或推理过程中通讯时刻过长,相当于GPU在等候通讯,浪费了贵重的GPU资源,一起也造成了用户在屏幕前的长时刻等候。

每家互联网厂商都在布置DeepEP,为什么最早处理问题的是腾讯?夏寅贲博士以为,一个重要的条件是,得益于QQ、微信、游戏、腾讯云等高并发事务的需求,腾讯在曩昔十几年间完成了网络通讯软硬件的全面自研,也积累了丰厚的实战经历。

2022年,腾讯发现针对AI场景的网络需求与传统的数据中心事务存在极大差异,因而开端规划针对AI大模型的专用网络,即星脉网络,旨在为腾讯混元大模型建立高功能网络底座。

腾讯开端着手处理DeepEP在RoCE网络功能欠安的问题。根据新一代自研TRMT(Tencent Remote Memory Transport)通讯库腾讯星脉网络团队结合在RoCEv2网络协议栈与双端口网卡架构的研讨经历,对DeepEP进行了优化和增强:

一方面,使用流量预规划技能来最大化双端口网卡的带宽使用率,另一方面,使GPU绕过CPU的操控,由GPU直控RDMA(长途直接内存拜访)通讯来消除操控面开支,将通讯时延下降至硬件极限。终究,完成了DeepEP在RoCEv2网络功能进步100%、IB网络功能进步30%。

“在练习场景中,功能进步10%意味着本钱不能自制下降10%,而在推理使命傍边,除了本钱下降,用户等候的时刻也不能自制削减10%。也便是说,曩昔问DeepSeek一个问题,曩昔要十秒钟才干得到答案,现在均匀不能自制下降到九秒。当然,不露锋芒还会持续尽力缩短这个时刻。”腾讯星脉网络团队通讯库架构师黄晓洁表明

细腻的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的图片

AI网络依照传输协议的不同可分为两IB网络和RoCE网络其间IB网络专为高功能核算和AI练习而生,以低推迟著称。但由于英伟达简直垄断了IB网络的中心硬件,生态关闭且本钱较高。考虑到供给“卡脖子”危险,腾讯星脉网络一开端就挑选了根据以太网的RoCE网络布置,并自研了习惯新式AI事务需求的通讯库TCCL并进一步演进到新一代TRMT通讯库

腾讯星脉网络团队通讯库架构师陈明卓说到,腾讯与DeepSeek团队一向存在严密的技能沟通,其间也包含对未来技能的演进。总的来说,AI网络最中心的诉求是无限下降通讯占比,也便是下降GPU等候通讯的时刻。

曩昔处理通讯问题的一向是CPU,但功率太慢。腾讯的中心处理思路是,把多个GPU组合成一个超级GPU,使得它们彼此之间相互拜访数据的才干变得更强,逐步代替CPU参加的场景。这也是国产GPU算力相对较低的布景下,进步AI网络功能的一种干流处理计划。

现在,上述技能效果都现已全面开源至DeepEP社区,并应用于腾讯混元大模型等项目的练习推理,这一效果也得到了来自国内其他头部互联网厂商的沟通和主张。

腾讯是DeepSeek开源的受益者马化腾曾在一季度的腾讯成绩会上提及DeepSeek对腾讯的影响:“不露锋芒特别敬仰市场上呈现了一家真实开源、且十分自在的一款产品,并且在世工程师在本钱和功率方面的优势也十分显着。腾讯经过了稳重考虑,不仅是云事务接入了DeepSeek,元宝也挑选了活跃拥抱。”

一起,腾讯也是全球开源社区的首要奉献者之一。事实上,无论是普世价值上的技能民主化,仍是增强工业信赖度,对任何一家AI技能革命的参加者来说,开源都是极为重要的一环,也是聚合开发者生态的战略挑选。

告发/反应
友情链接: