中文字幕高清在线 日韩

国产GPU迎战英伟达H200

发布日期:2026-01-06 12:11    点击次数:108

2025年12月17日,沐曦股份在科创板上市,首日收盘价829.90元,较刊行价104.66元上升725.24%‌,沐曦专注于高性能GPU芯片研发,居品掩饰东说念主工智能盘算、通用盘算及图形渲染范围。

就在不到两周前的12月5日,摩尔线程负责登陆科创板,成为“国产GPU第一股”,是2025年科创板募资额最大的IPO,从受理到过会仅用88天,刊行价为114.28元/股,上市首日涨幅达425.46%。‌‌

国产GPU 厂商的密集上市并备受市集追捧,某种程度上,对“狼又回归了”的回报。据媒体报说念,2025年12月8日,好意思国总统特朗普在酬酢媒体晓示:好意思国将允许英伟达向中国"经批准的客户"出口H200东说念主工智能芯片,但需将销售收入的25%上缴好意思国政府。

好意思国智库越过盘考所论说显现,H200的性能险些是H20的六倍,但仍与最新的Blackwell芯片存在代际差距——这正巧卡在"能用但不先进"的甜密点上。因此好意思国解禁 H200其实是其"温水煮青蛙"策略的络续——“推销”性能相对落伍但仍具竞争力的H200芯片,试图减速中国国产替代的经过。

更有益念念的是,黄仁勋曾谣言连篇地默示,加多对华芯片销售额既能让中国企业依赖当时代,又能为公司带来更多研发资金。这种"以战养战"的念念路,与好意思国鹰派的"时代依赖论"不约而同。

但这场"温水煮青蛙"的意图能否得逞,还要看我国接不接招。从加速国产 GPU 厂商上市来看,理解,我国并不中计。

01

莫得H200的日子

2022年至2025年,好意思国对华半导体出口管制政策层层加码。2025年4月,好意思国进一步收紧管制,导致英伟达为中国市集定制的特供版H20芯片被迫停售,公司因此承受了约45亿好意思元的库存吃亏及80亿好意思元的潜在收入吃亏。英伟达CEO黄仁勋在2025年10月公开默示,受出口管制影响,英伟达在中国的市集份额从95%骤降至0%,公司"100%离开了中国市集"。

这三年,被业界称为中国AI芯片产业的"至暗时刻",但也恰是这三年,催生了国产芯片的加速崛起。靠近外部顽固,国产GPU厂商选择了"三管皆下"的解围策略:

在单卡性能暂时无法与英伟达匹敌的情况下,国产厂商通过堆面积、堆晶体管、堆芯片的方式来弥补性能差距。华为昇腾910C选拔双Die联想,FP16算力达到800 TFLOPS,性能迫临英伟达H100的80%;寒武回想念元590抽象性能达到英伟达A100的70-80%;海光信息深算二号FP16算力达1024 TFLOPS,接近A100的90%。

由于能效比拟差,国产卡多半选拔"电力+工程才智"硬顶的方式处分功耗问题。摩尔线程的"平湖"架构撑抓单芯片最高1000W TDP动态功耗管理,通过液冷等工程技能确保自如运行。天然每瓦性能仍落伍英伟达约30%,但国产卡低功耗版也曾正流片。

说白了,在这段时期,国产卡通常选拔用更密集的液冷,堆更多处事器机架,试图以更强的工程才智来补落伍的能效。

临了是"生态兼容+编译层hack"。靠近英伟达CUDA生态的把持地位,国产厂商选择了兼容策略。海光DCU通过ROCm生态杀青对CUDA的"软兼容",实测迁徙后果可达85%。华为CANN架构选拔"提醒翻译+动态调动"时代,杀青对CUDA API的80%掩饰。

这里的“兼容 CUDA”,从时代上来说,特殊于作念了一层翻译器,让国内 GPU 能跑英伟达的提醒言语,举例英伟达的函数叫 CUDA_X,国产的函数叫 BR_X(比如壁仞),→ 特殊于就作念一张“对应联系表”,代码调用 CUDA_X 时自动转成 BR_X。就像查字典一样,把“英伟达语”翻译成“国产语”,通过统一算子、分拆算子、调理扩充要领等一系列技能,将CUDA中的算式变得更合适腹地语法。

但问题也不言而谕:恒久慢半拍—— 因为对方束缚更新言语,你恒久要追新词,英伟达每次更新CUDA、更新架构,国产厂商坐窝要作念新的翻译器,这在战术上十分被迫。

H200 被挡在门口的三年,国产 GPU 时代门道呈现出相配较着的“中国式立场”——在工艺受限的情况下,通过“架构取巧、集群堆叠、算子和会、软件兼容”这些工程学上的奋力,硬生生把落伍的硬件打磨到可用、能上限度、适配大模子检会的程度。

这套门道不是工程上的最优解,但在顽固环境下,是现实可行的最优解。

02

差距到底在哪?

要评估国产GPU与英伟达H200的时代差距,需要用调处的圭表进行量化对比。字据好意思国商务部工业与安全局(BIS)界说的"总处感性能"(TPP)主义,可以对主流AI芯片进行横向比拟,动作参考。

这里的TPP主义,指的是领略:TPP = 2 × MacTOPS × 操作位长,曩昔以TFLOPS(FP16)× 16盘算。字据伯恩斯坦盘考2025年12月发布的论说,各芯片TPP性能对比如下:

- 英伟达H200:60,000 TPP(基于Hopper架构,141GB HBM3e,4.8TB/s带宽)

- 英伟达H20:15,832 TPP(特供版,性能仅为H200的26%)

- 华为昇腾910C:36,912 TPP(性能约为H200的61.5%,国产最高)

- 寒武回想念元590:29,360 TPP(性能约为H200的49%)

- 海光BW1000/DCU3:14,688 TPP(性能约为H200的24.5%)

- 摩尔线程S4000:约20,000 TPP(性能约为H200的33%)

从公开数据可以看出,国产顶级芯片在单卡性能上仍落伍H200约1.6-2倍,但也曾超越了H20,达到了"可用"的水平。

可是,在检会才智方面,国产卡单卡仍落伍2-3倍,但所幸的是,集群层面可通过"堆卡+高速互联"弥补部分差距。

华为CloudMatrix 384集群(384张昇腾910C)性能接近英伟达GB200 NVL72,在部分大模子检会任务中阐扬致密。但需要提防的是,由于工艺制程限制(国产芯片多半选拔7nm,H200选拔4nm),每瓦性能仍落伍30%傍边。

推理才智方面,国产Top卡已抓平甚而超越阉割版H20。华为昇腾910B2的INT8算力达到762 TOPS,在推理阶段处理低精度数据后果较高;寒武回想念元590在推理场景中也阐扬优异,KV-Cache放得下、带宽够用。沐曦曦云C550的显存带宽达到1600-1800GB/s,超越H200的4.8TB/s,在大限度推理任务中具有上风。

本钱和功耗方面,当前海光BW100采购价钱约10万元/张,寒武纪590价钱从首先8.5万元降至6-7万元,华为910C约18万元,均显耀低于H200的30-40万元。更紧迫的是,H200还需异常支付25%的"好意思国税",使得国产卡在本钱上具有约50%的上风。功耗方面,天然国产卡单卡功耗较高,但酌量到H200的700W TDP,施行差距并不悬殊。

生态经过是国产芯片最大的短板,但亦然越过最快的范围。

当前,华为昇腾的CANN 用具链已撑抓与 MindSpore 深度协同和 PyTorch 一键迁徙。其他国产平台也在作念雷同深度编译器与中间默示 (IR) 适配,让路发者可以更少手动改代码地运行大模子。

其中的主要原因,在于不同国产芯片厂商、云厂商、软件团队、科研院校都在联结鼓动生态范例圭表化、用具分享、适配案例分享。

这种产业协同在生态缔造上是罕有上风。

抽象来看,国产芯片与H200在检会方面的差距依旧存在,但在推理方面,已料理到"能用+本钱更低+可控"的水平。

现阶段,国产芯片正从"免强合格"向"好用"的爬坡阶段迈进,字据字据伯恩斯坦的揣摸,预测2026-2027年,将在部分场景杀青与H200的全面竞争。

03

将来的较量

在产业方面,从时代演进来看,英伟达刚刚发布的Blackwell Ultra系列仍络续"堆料涨性能"的门道,赌的是摩尔定律(或"黄氏定律")尚未拆伙。所谓“黄氏定律”,不是什么物理学定律,而是英伟达CEO黄仁勋提倡的'GPU性能每两年翻一倍'的教导律例。

这种“定律”与其说是天然规定,不如说是英伟达研发插足和市集策略的体现——每年插足超越70亿好意思元的研发用度,让竞争敌手可望不可即。

但国产芯片莫得径直硬碰硬,而是选拔"架构取巧+多芯片封装+集群堆叠"的间接战术。华为昇腾选拔双Die联想,通过先进封装时代进步集成度;摩尔线程"平湖"架构杀青Chiplet可蔓延架构,撑抓盘算Die、HBM3e存储Die与IODie纯真是立;沐曦曦云C700系列进一步蔓延对FP4等低精度的盘算撑抓,对标H100。

总体上来看,在先进工艺受限的情况下,国产芯片通过架构窜改杀青了性能冲破。华为昇腾910C选拔达芬奇架构3.0,集成32个自研AI Core,撑抓原生CANN异构盘算;寒武回想念元590选拔MLUarch架构,通过提醒集优化进步盘算后果;海光深算三号选拔x86+GPGPU的Chiplet封装,通过2.5D封装杀青HBM2e内存直连,带宽达1.6TB/s。

这些时代窜改使得国产芯片在特定场景下无意杀青与英伟达相失色的性能阐扬。

况且从诈骗层面看,国产AI芯片也曾找到了我方的"安静区",而且干得特殊可以。

举例智算中心这类场景,当今也曾成了华为的“主场”。截止2025年,宇宙600多个智算中心容颜中,超越300套Atlas 900超节点曾做贸易用部署,华为昇腾在智算中心范围可以说是"价值连城"。涵盖互联网、电信、制造等多个行业。中国电信粤港澳大湾区的智算昇腾超节点,更是成为大师首个商用的超节点容颜。

通常地,在面向国内大生态的专用场景,举例智能安防、金融风控、OCR / 文本语义检索、音视频内容处理(如自动裁剪、AI 转码)等任务中,国产卡可针对特定算法作念深度定制优化。

通过自研编译器和算子库径直对接国内框架如MindSpore,在“我惟有这个任务跑得快就够了”的场景下,专用定制通常比通用 GPU 后果更高。

而在低蔓延/ 小限度边际场景,举例边际 AI、工控开导、机器东说念主腹地推理等场景,国产 NPU/ASIC 有筹谋比通用 GPU 后果更高。因为架构从一运行就针对推理作念到低功耗,不依赖重型 CUDA 生态

说到底,国产芯片的上风场景都有一个共同点:对本钱、功耗、供应链安全明锐。在这些场景,性能不是独一主义,性价比和自主可控才是王说念。

总结而言,H200的有限解禁是好意思国"时代依赖"策略的体现,试图通过提供次高端居品看护中国对好意思国时代的依赖。但这一策略为时已晚——在H200“断供”的顽固期内,中国AI芯片产业也曾建立起从硬件到软件、从单卡到集群的竣工处分有筹谋。

而这套日益牢固的基本盘,不是一块H200 就能蹂躏“打回原形”的。

更紧迫的是,大模子越来越自如,检会次数变少确当下,最贵的检会不再那么往往,但推理量是每天都在爆炸,国产卡能不成吃掉检会,短期不紧迫,惟有把推理吃死,通盘这个词产业也就立住了。

在进入“战术相抓”阶段确当下,倘若再多给国产芯片一些时分,假以时日,国产检会卡也将"上桌掰手腕"。(林书)

  声明:新浪网独家稿件,未经授权辞谢转载。 -->




Powered by 中文字幕高清在线 日韩 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024