重构算力成本曲线,行云集成电路完成超4亿元融资
国内全自研GPGPU创新企业「北京行云集成电路有限公司」(以下简称"行云")宣布连续完成Pre-A及Pre-A+多轮融资,融资金额超4亿元。本轮由五源资本、赛富投资基金、春华资本联合领投,北京、江苏等地方国资、佰维存储、金沙江联合带动全球知名GPU企业创始人家办、创维资本等产业资本跟投。云岫资本连续多轮服务并担任下一轮独家融资财务顾问。
行云成立于2024年,专注面向大模型推理的新一代GPGPU芯片。技术上打造超大显存规格、极致CUDA兼容的全自研产品,公司目标直指AI大模型推理的普惠化。
创始人季宇博士,清华大学计算机系博士,"华为天才少年"计划成员,曾在华为海思深度参与昇腾AI芯片的编译器与架构研发。CTO余洪敏博士,中科院半导体所博士,曾深度参与包括两款国产AI芯片在内的多款芯片的研发与量产,拥有十余款芯片成功流片经验。一位是站在算法×编译器交界处的架构师,一位是十余次走完"实验室到量产"全流程的芯片老兵——这恰好对应了行云技术路线的两个重点:架构判断要不要赌错、工程交付能不能扛住。
要理解行云芯片的逻辑,必须先承认一个正在被业内默认、但还未被公众充分定价的事实:2026年的大模型,已经不再是"应用",而是"生产资料"。
从Chatbot到Agent,从一次性问答到长链路、多轮自主执行的任务交付,模型正在变成知识工作的底层引擎。一旦角色从"产品"转换为"生产资料",关于"谁拥有它、谁定价它、谁被它替代"的讨论就避无可避。而当这个问题向下追问到基础设施层,三个结构性矛盾立刻浮现。
矛盾一:从玩具到工具的鸿沟,门槛是千亿参数
Chatbot时代,7B、13B的小模型勉强够用。但真正能被Agent场景委以重任的模型,几乎全部集中在200B–700B的千亿参数区间——只有这个量级,才能撑得住超长上下文、稳定的工具调用链和可接受的幻觉率。
用户用钱投票已经把这一点说得很清楚:2026年初,Anthropic以行业最高的API定价把营收推到300亿美元ARR,其中Claude Code单产品ARR即达25亿美元。"最贵的模型反而最赚钱",恰恰说明在"真正能干活"的场景里,模型质量是一道硬门槛,而这道门槛,今天的消费级硬件够不着。
矛盾二:成本结构性失衡,大厂和用户被同时挤压
为了把千亿模型留在云端,OpenAI、Anthropic、Google 等头部厂商过去两年的资本开支呈指数级增长——更大的集群、更贵的HBM、更密的液冷机房。这些成本最终必然向用户端传导:订阅制的代价是限流、降智、高峰排队,海外API计费的代价是Agent长链任务下指数级增长的Token账单,月支出动辄数千美元。
这是一场不对称的双向挤压:大厂在赌自己能撑到回本那一天,用户在赌自己付得起下一张账单。任何能在这局之外另开一条算力供给路径的玩家,都会给目前的产业界带来新的思考。
矛盾三:数据主权与岗位反噬的不对称交换
云端API在数据流向上是单向透明的。用户每一次与Agent的深度协作,都在把职业Know-how免费转交给模型公司。海外大厂一边组建"反蒸馏联盟"严防所谓竞争对手,一边肆无忌惮地从所有用户身上蒸馏经验。"个人经验→模型能力→岗位替代"的闭环就此闭合。
对一名知识工作者来说,这已经不只是隐私问题,而是生存问题。只要推理还完全构筑于云端,数据和生产关系的主权就总有归零的一天。
上述矛盾,过去并非没人看到,但在稠密Transformer时代,"把千亿模型搬回本地"在物理上就不成立——稠密模型每次前向都要全量激活,对带宽的需求让HBM成为不可绕开的刚需,消费级的LPDDR/DDR根本进不了场。
而MoE稀疏架构的普及,把这套法则改写了。MoE用更大的总容量装下更多"专家",但每次推理只激活一小部分。结果是瓶颈从"极致带宽"迁移到"超大容量",单次激活的算力和带宽需求骤降。带宽需求第一次回落到LPDDR/DDR的"甜点区间"。再配合Attention的稀疏性和超长上下文的需求,算力,容量,显存带宽,互联的关系在不断发生改变。
换句话说,是算法演进给硬件留出了一个历史性的窗口期。能不能踩准这个窗口,决定了一家芯片公司是顺着潮水走还是逆着潮水走。
行云的技术路径,可以拆成"介质替换"和"系统级工程"两层。
介质层面,行云放弃成本高昂的HBM,转而采用LPDDR乃至NAND(SSD颗粒)作为显存介质,使显存成本下降1到2个数量级。低成本介质单颗粒带宽较低,行云用多颗粒、多通道并行架构把整体带宽堆叠到TB级,匹配大模型推理的吞吐需求。
系统层面,公司通过Prefill / Decode分离(PD分离)、KV Cache稀疏化、分布式扩展、极致CUDA兼容等手段,在系统级构建软硬件协同壁垒。CTO余洪敏强调,行云的设计优先级已经从"追求单芯片极致性能"转向"从板级系统角度追求可扩展性与供应链稳定性"——通过分布式设计与成熟工艺、低成本存储的组合,在系统层面实现成本最优与体验一致。
物化到产品,就是行云即将推出的首款消费级桌面计算产品,CUDA极致兼容,面向消费级价位点设计。它不是一张被裁剪过的计算卡,而是从底层就为"在端侧跑千亿模型"重新设计的芯片,让用户可以在万元价位高吞吐运行万亿级别参数的大模型。
行云援引一个产业类比:当19世纪的交通革命中铁路刚出现的时候,英国产生了巨大的铁路泡沫,认为所有的道路将通过铁路流通,并最终留下了商业模型的崩溃出清。但最后并不是只靠贯穿大洲的铁路干线完成所有的交通需求,更依赖于深入毛细血管的汽车与公路。今天的AI算力网络也站在同样的分岔口——是走向超算垄断的"中心化铁轨",还是走向端侧普惠的"分布式公路"?
行云给出的答案是后者。在公司的产品路线里,首颗芯片只是第一个锚点。当技术路径进一步推向NAND介质,端侧算力设备的价位有望下探到千元级,覆盖主流千亿乃至万亿参数模型,并在单用户场景下反超云端体验,最终让AI算力设备的普及率接近今天的智能手机。
与此对应,季宇明确表示,公司今年的核心目标是完成芯片量产并尽快推向市场,以芯片产品作为商业化的主要抓手。OpenClaw 和Hermers这类Agent平台的现象级传播也已经印证了下游需求——市场对"消费级硬件承载高质量AI"的渴望,已经具备实际购买力。
猜你喜欢
高瓴五源等10余家资本投资,地瓜机器人完成1亿美元A轮融资
在商业生态上实现了从消费级机器人市场的规模化落地,新兴智能机器人的多元品类孵化。鸿博股份前老板巨额套现离场,17亿“接盘”股民怎么办?
股价坐“过山车”、市值蒸发近60%还不算,包括其17万股民、权威媒体、业界专家、相关律师乃至“吃瓜群众”等在内,无不对鸿博股份多份与英伟达签署的算力合同“爽约”深感“蹊跷”。

猎云网



博望财经




