| 雷峰网
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给朱可轩
发送

0

「鲶鱼」DeepSeek 正在搅动上下游

本文作者: 朱可轩   2025-02-07 18:10
导语:大模型同行焦虑、云厂「抢食」、芯片厂拼命,DeepSeek 效应仍在持续。

作者|朱可轩

编辑|陈彩娴

春节结束,DeepSeek 热度不减,而要说刚刚过去的春节假期,留给科技圈的印象可能是“卷上加卷”,几乎无人不在热议分析着 DeepSeek 这条“鲶鱼”。

硅谷方面迎来了空前的危机感:开源的信徒们声量再度走高,甚至连 OpenAI 都在反思闭源的决策是否正确;低算力成本的新范式引发芯片巨头英伟达连锁反应,创下美股史上最大规模单日市值蒸发纪录;政府部门下场调查 DeepSeek 使用芯片的合规性......

在海外对 DeepSeek 评价褒贬不一的同时,国内也迎来了空前繁荣。

DeepSeek 发布 R1 模型后上线的 APP 接到泼天流量,初步验证了应用端增长将会拉动整个 AI 生态发展。利好在于 DeepSeek 会把整个应用的可能性都打开,换言之就是以后发现 ChatGPT 不用这么贵。

这点在近日 OpenAI 的频繁动作中也可以窥见,其为应战 DeepSeek R1 首次向免费用户提供推理模型 o3-mini,并也在后续升级公开了 o3-mini 的推理思维链,不少海外网友在评论中向 DeepSeek 表示感谢,不过这一思维链仅为总结版。

「鲶鱼」DeepSeek 正在搅动上下游

同时能乐观看到的是,DeepSeek 这一波无疑又将国内拎成一股绳。

在其将模型降本按下加速键后,以其为圆心,上游芯片厂商、中间层云厂以及一众创业公司都在积极加入生态中,为 DeepSeek 模型使用的降本增效持续添砖加瓦。

据 DeepSeek 论文介绍,V3 模型完整训练仅需 278.8 万 H800 GPU 小时,且训练过程十分稳定。

在这背后,MoE 架构是 V3 相比 Llama 3 405B 预训练成本降低十倍最关键的原因,当前,V3 是在公开领域第一个证明 MoE 的稀疏度可以做到这么高的模型。此外,MLA 同样相辅相成,这部分则主要体现在推理侧。

“越稀疏的 MoE 在推理的时候需要越大的 batch size 才能充分利用算力。而限制 batch size 的最关键因素就是 KVCache 的大小,MLA 大幅度缩小了 KVCache 大小。”趋境科技研究员向 AI 科技评论分析道。

从整体上来看,DeepSeek 的成功在于各项技术的组合,而非单一技术。业内评价,DeepSeek 团队工程能力极强,其在并行训练、算子优化等方面也都做得很好,把每个细节做到极致后才实现了最终的突破性效果。

而 DeepSeek 开源也意味着能为大模型整体发展再添一把柴,其现阶段成果还体现在语言模型,业内判断,后续如有类似路线的模型在图像、视频等领域发力,将会进一步带动行业整体需求。


第三方推理服务的机遇

据数据显示,DeepSeek 自发布后,截止一月末上线仅 21 天,其日活跃用户 DAU 2215 万,达 ChatGPT 日活用户的 41.6%,超过豆包的日活用户 1695 万,成为全球增速最快的应用,并收割了苹果应用商店 157 个国家/地区第一。

用户大量涌入之余,外网黑客也在疯狂攻击,DeepSeek APP 目前服务器繁忙已有多时,这背后在业内看来,其实也与 DeepSeek 将卡投入训练,用在推理侧的算力不太够有关。

业内人士向 AI 科技评论分析道,“服务器频繁的问题其实很好解决,收费或者融资买更多机器,不过这要看 DeepSeek 的选择了。”

这也是专注技术和产品化的抉择博弈,一直以来 DeepSeek 都在依靠幻方量化实现自我供血,几乎未接受过外部融资,在现金流方面压力不大,所以其技术氛围也相对纯粹。

当前,面对前述问题,一部分用户在社交平台呼吁 DeepSeek 增高使用门槛、加设付费项目来提升自身的使用舒适度。

另外,也有开发者选择调用官方 API 或者使用第三方 API 获得部署优化。不过,日前,DeepSeek 开放平台又发布消息称,“当前服务器资源紧张,已暂停 API 服务充值。”

「鲶鱼」DeepSeek 正在搅动上下游

这无疑为 AI Infra 层的第三方厂商提供了更多机会。

近日,国内外数十家云巨头已纷纷上线了 DeepSeek 的模型 API——海外云厂两大巨头微软、亚马逊于 1 月底便抢先接入。

国内华为云率先出击,在 2 月 1 日与硅基流动合作上新 DeepSeek R1 & V3 推理服务,当前,据 AI 科技评论了解,硅基流动平台服务已被大量用户涌入“打爆”。

BAT 三巨头以及字节跳动也纷纷在 2 月 3 日陆续打出低价限免牌,这波狂欢如同回到去年 DeepSeek 在发布 V2 模型时点燃的云厂价格战,自那时起 DeepSeek 就开始被称为“价格屠夫”。

云厂的疯狂“抢食”和早些年微软云强绑定 OpenAI 的逻辑也有些相似之处:

2019 年,微软云便已早早压注 OpenAI 并注资 10 亿美元,并在 2023 年后者发布 ChatGPT 后吃到了红利。但二者的亲密关系则在 Meta 开源 Llama 后出现了裂痕,开源模型的出现意味着微软云外的其他厂商也能布局自己的大模型。

此次 DeepSeek 不仅在产品侧比 ChatGPT 当年热度更甚,更是在 o1 之后相对应推出了开源模型,这就如同当年的 Llama 开源复现 GPT-3 所引发的轰动一般。

实际上,云厂也是在压注 AI 应用的流量入口,换言之,和更为开发者深入绑定意味着能够抢占先机。据悉,百度智能云在上线 DeepSeek 模型首日,便已有超 1.5 万客户通过千帆平台进行调用。

另外,也有不少小厂给出了解决方案,除硅基流动外,潞晨科技、趋境科技、无问芯穹、PPIO 派欧云等 AI Infra 厂商也已陆续上线对 DeepSeek 模型的支持。

AI 科技评论了解到,目前,针对 DeepSeek 的本地化部署优化空间主要存在于两方面:

一是针对 MoE 模型稀疏性的特性,能够采用混合推理的思路优化,在本地部署 DeepSeek 671B 大小的 MoE 模型,GPU/CPU 混合推理是非常重要的方向,二是 MLA 的优化实现。

不过,DeepSeek 的两款模型在部署优化上还有些许难点问题。

“因为模型大、参数多,优化确实有一定的复杂度,尤其需要本地化部署的话,如何做到效果和成本的最优平衡会有难度。”趋境科技研究员告诉 AI 科技评论。

其中最大难点在于如何克服显存容量的限制。“我们采用异构协同的思路是充分利用 CPU 等其余算力,仅将非Shared 部分的稀疏 MoE 矩阵放在 CPU/DRAM 上并通过高性能的 CPU 算子进行处理,剩余稠密部分放在 GPU 上。”他进一步介绍。

据了解,趋境的开源框架 KTransformers 主要是通过一套注入模板将各种策略和算子注入到原本的 Transformers 实现中,同时,通过通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。

DeepSeek 也为这些创业公司带来了生存空间,当前增长效益已开始初显成效,上线 DeepSeek API 后,不少厂商在与 AI 科技评论交谈中提到,其均得到了明显客户增长,许多客户找上门提出优化诉求。

有相关业者发文表示,“以往稍具规模的客户群体,往往早已被大厂的标准化服务套牢,被他们规模效应带来的成本优势牢牢绑定。然而春节前完成 DeepSeek-R1/V3 的部署后,我们突然接到多家知名客户的合作需求,连此前一度沉寂的老客户也主动联络,希望引入我们的 DeepSeek 服务。”

目前来看,DeepSeek 这波让模型的推理性能变得更加重要,而且大模型普及更为广泛,这会持续影响 AI Infra 行业的发展,如果能够低成本地在本地落地一个 DeepSeek 级别的模型,将会对政府和企业智能化的发展有很大的帮助。

但与此同时,挑战也是存在的,也会有部分客户可能会对大模型的能力期待比较高,在实际的部署使用中,大模型的使用效果、成本这些要做到平衡的挑战更明显了。


「颠覆英伟达」的冷思考

当前,除华为外,摩尔线程、沐曦、壁仞科技、天数智芯等数十家国产芯片厂商也纷纷跟进适配了 DeepSeek 两款模型。

有芯片厂商向 AI 科技评论表示,“DeepSeek 在结构上有创新,但还是 LLM,我们适配 DeepSeek 都是聚焦推理应用,所以技术实现上并不难,实现得都很快。”

不过,MoE 这一路线对存储和分布式有更高的要求,再加上使用国产芯片部署也需要考虑一些系统兼容问题,在适配过程中仍有许多工程上的难题需要解决。

“当前,国产算力在使用的便利性和稳定性方面与英伟达仍存较大差异,软件环境、故障排查、涉及底层的性能优化等都需要原厂参与解决推进。”从业者在实践过后告诉 AI 科技评论。

同时,“由于 DeepSeek R1 参数规模较大,国产算力也需要更多节点的并行才能使用。另外,国内在硬件规格上也还存在些许落后,例如,华为 910B 当前还不能支持 DeepSeek 所引入的 FP8 推理。”

DeepSeek V3 模型的亮点之一便是引入了 FP8 混合精度训练框架,并在超大规模模型上验证了有效性,这点作为首次公开验证具有重大意义。此前,微软、英伟达等巨头都曾提及过相关工作,但业内一直以来都有声音对此表示质疑。

据了解,相比于 INT8 而言,FP8 的最大优势在于其后训练量化能够获得几乎无损的精度,同时显著提升推理速度,与 FP16 相比,在英伟达 H20 上可以实现 2 倍的加速效果,在 H100 上可获得超过 1.5 倍的加速。

值得一提的是,近期,随着国产算力+国产模型这一趋势的讨论愈发热烈,关于英伟达是否会被颠覆、CUDA 护城河将会被绕开的声音也甚嚣尘上。

一个不可否认的事实是,DeepSeek 确实凭借一己之力让英伟达市值暴跌,但这背后实则是英伟达高端算力方面受到质疑,过往受资本裹挟的算力堆砌论被打破,而目前来看,英伟达卡在训练方面被替代仍旧有难度。

从 DeepSeek 对 CUDA 的使用深度中可以发现,类似用 SM 做通信甚至直接操纵网卡这种灵活性其实不是一般的 GPU 可以支持的。

业内观点也强调,英伟达的护城河是 CUDA 整个生态,并非 CUDA 本身,DeepSeek 所使用的 PTX(并行线程执行)指令仍是 CUDA 生态的一环。

“短期来看,英伟达算力还无法绕开,这点在训练层尤为明显,推理上国产卡的推行会相对容易些,所以进度也会快些。大家做国产卡适配也都是推理侧,没人能用国产卡大规模训练出 DeepSeek 这种性能的模型。”有从业者向 AI 科技评论分析。

整体从推理上来看,对于国产大模型芯片是利好的。国内芯片厂商的机会在推理会更为明显,训练由于要求太高所以很难进。

业内看来,推理国产卡就可以,再不济多买一台机器,训练不一样,机器多了管理起来会累,而且失误率高会影响训练的效果。

训练对集群规模也有要求,推理对集群要求则没那么高,对 GPU 的要求也相对低,当前,英伟达 H20 单卡的性能其实并没有华为、寒武纪强,强在集群。

从算力市场的整体影响情况上来看,潞晨科技创始人尤洋告诉 AI 科技评论,“DeepSeek 这波短期内可能会打击超大训练算力集群的建设和租赁,长期来看,由于其显著降低了大模型训练、推理、应用的成本,市场需求高涨,以此为基础的AI迭代,会继续推动算力市场的持续需求。”

同时,“DeepSeek 在推理和微调侧的需求提升,也更适合国内算力建设比较散、国产算力相对弱情况,减少集群建设后的闲置浪费,这是全国产化的算力生态各层级厂商有效落地的机会。”

潞晨科技也和华为云合作推出了基于国产算力的 DeepSeek R1 系列推理 API 及云镜像服务,尤洋乐观表示,“有 DeepSeek 给大家国产化的信心,后续大家对于国产算力的热情和投入也会更多。”雷峰网(公众号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知

「鲶鱼」DeepSeek 正在搅动上下游

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map