中国AI大模型自主创新形成机制——来自DeepSeek的启示

导语:以 DeepSeek 为典型案例运用纵向单案例研究方法基于战略管理和组织理论视角将其发展过程划分为初创期发展期和转型期三个阶段构建动因—过程—结果分析框架揭示其从量化投资跨界到通用人工智能的创新逻辑

近年来,以人工智能((Artificial Intelligence,AI)为代表的前沿科技对中国实现产业结构升级和经济发展产生了重要影响。2022 年以来,以 ChatGPT 和 Sora 等为代表的人工智能大模型迅速出圈,引发各界入局并催生 AI 大模型产业生态雏形。大模型指大规模预训练模型,研究人员通过设计先进算法,借助大规模算力在海量数据集上训练后形成的智能系统,仅需少量数据的微调就能服务于理解、推理和生成多模态内容等各类应用。从技术范式看,大模型通过海量参数与复杂架构实现对人类知识的压缩与泛化,本质上是数据驱动的新型生产力,其训练数据集的语料构成、标注规则及价值对齐机制,均深度嵌入特定国家的文化偏好、价值伦理与意识形态倾向。从国际局势看,美国聚焦人工智能等前沿科技领域,通过增加实体清单、关税等方式对中国进行科技封锁遏制。因此,在该领域实现自主技术可控,对我国促进经济发展和维护国家安全意义重大。自 ChatGPT 发布以来,尽管中国科研机构与企业依托算力基建与政策支持快速跟进,但长期以来的“应用强、基础弱”的自主性瓶颈,导致在该领域的前沿重大突破依然困难。


2024 年 12 月 26 日,中国企业深度求索发布了大模型 DeepSeek-V3,推理和训练成本仅为硅谷顶级大模型的十分之一,并于 2025 年 1 月 20 日发布的 DeekSeek-R1 推理大模型,以其出色的逻辑推理能力,接近甚至超过 OpenAI-o1 的水平,使其迅速成为 2025 年初最出圈的人工智能大模型,DeepSeek 的出现代表着国产大模型的标志性突破,为研究自主创新提供了新的视角。尽管,现有研究已经对 AI 大模型的自主创新机制提出了一定的思考,例如余江等对比了传统人工智能和大模型的差别,通过分析人工智能大模型在天猫精灵产品创新中的案例,提出了 AI 大模型赋能下的技术推动、需求拉动及双轨交互创新路径。


本研究旨在通过对 DeepSeek 的单案例分析回答以下问题:DeepSeek 原创性突破的主要特征是什么?中国人工智能 AI 大模型企业自主创新背后的形成机制有哪些?DeepSeek 研发过程对中国 AI 大模型自主创新提供了哪些理论或实践上的启示?通过对上述问题的回答,核心的理论边际贡献在于,界定 AI 大模型自主创新的概念、区分了中国 AI大模型自主创新的特殊性、深度剖析了中国 AI 大模型自主创新的主要特点和理论机制。


一、分析框架


当前,人工智能大模型的自主创新研究仍处于探索阶段。现有文献对传统技术领域的自主创新路径虽有一定解释力,但大模型的技术复杂性、数据依赖性、算力门槛以及生态化竞争格局,使其自主创新逻辑呈现显著差异。受制于前沿技术阶段的不确定性,关于人工智能技术创新的组织模式和支撑框架在理论和实践上尚不清楚。因此,有必要从产品开发、组织管理等视角构建分析框架。首先,技术进步要对经济发展起作用,就必须采用产品形式。人类社会自进入工业革命以来,类似于蒸汽机、半导体、计算机等划时代的产品出现后,都会为后续大量的创新提供一个基本框架,并由此支撑后续数十年的序列式创新。


OpenAI 等组织对 AI 大模型的研发不仅提供了通用人工智能的一条技术路径,而且这种“技术范式”在短时间内已经发展地相对成熟,并以丰富的产品形式呈现。因此,从组织产品开发的过程入手,有助于厘清大模型企业自主创新的主要机理。本文基于战略管理和组织理论的相关研究,构建了一个包含动因((外部情境、创始人特质、组织能力)、过程((技术路线-商业模式)和结果(创新绩效)的系统性分析框架(如图 1 所示)。

图1  大模型自主创新分析框架


从动因维度看,研究表明企业新产品开发首先受到组织内部权力关系和层级结构的深刻影响,创始人或高层管理者的技术认知和资源分配决策对新产品的开发方向具有决定性作用。然而,现有研究对创始人角色的理解过于静态化,忽视了创始人特质与外部情境的交互作用如何推动其角色转换,进而影响突破性创新。同时,组织能力是自主创新的关键要素,包括管理模式、资源整合和组织学习。组织管理模式的选择会直接影响创新效率,分权化管理赋予工程师更大自主权,有利于探索性学习和新技术开发。“资源行动”概念揭示了组织如何通过动态调整内外部资源来应对环境变化,这在中国特殊的制度与市场环境下显得尤为重要。组织学习作为连接外部知识获取和内部能力积累的关键机制,在创新过程中也发挥着桥梁作用。从创新过程维度看,技术创新战略和商业模式设计的动态匹配是后发企业实现技术追赶的重要模式,即技术与市场的协同交互。而从结果维度看,现有研究尚未充分关注中国情境下自主创新绩效的特殊性,中国后发企业的创新绩效不仅取决于内部能力积累,更受到制度环境、市场特征等外部因素的显著影响。


二、案例选择


本研究选择 DeepSeek 作为案例,主要是基于 DeepSeek 的研发路径和创新成果体现了中国 AI 大模型自主创新的特点。DeepSeek 之所以能够一定程度上代表“中国 AI 大模型自主创新”,是因为它在大模型技术开发的多个环节实现了突破,体现了中国在大模型领域的独特路径和贡献。具体来看,可以分为代表性、独特性与透明性三重研究价值。


从代表性看,DeepSeek 突破了传统算力堆砌模式,首创“算法-算力”协同追求极致性价比的新思路,同时,DeepSeek 也是本土企业突破科技封锁的原生性自主创新,在高端算力受限的情况下,自主开发整体性能对标甚至在某些环节超越国际一流大模型水平的模型,提供了非对称创新范式。


从独特性看,作为量化投资背景的初创公司,DeepSeek 选择沉下心做技术积累,从底层向上构建完整的算法-算力支撑体系,摆脱了近年来国内百模大战中的“跟随式”模仿思维束缚,从量化建模实现了向通用人工智能的跨界转型。


当前,随着扩展定律((ScalingLaw)呈现出逐步放缓的趋势,数据、算力、算法等显性要素逐步确定,为何一家初创公司能够脱颖而出,做到国内大模型大厂都做不到的创新?其自主创新的形成机理有待进一步发掘。


从透明性看,DeepSeek 为自主创新研究提供了稀缺素材。目前,国内外案例研究对于企业突破性的自主创新探讨较少,这不仅仅是由于自主创新的素材较为稀缺,更是由于企业自主创新的技术密码和过程资料,往往涉及到许多商业机密而选择不公开。DeepSeek 通过开源代码、公开论文及技术白皮书,为揭示 AI 大模型企业自主创新的“黑箱”机制提供了可追溯、可验证的实证基础。


案例介绍:DeepSeek 自主创新的主要特点


要分析 DeepSeek 自主创新的形成机制,首先要明确 DeepSeek 为什么“新”,能够体现哪些中国 AI 大模型自主创新的基本特征?DeepSeek 是由中国杭州深度求索人工智能基础技术研究有限公司开发的人工智能技术品牌,专注于大语言模型((LLM)和智能搜索分析系统的研发与应用。2024 年底和 2025 年春节期间,DeepSeek 分别发布其旗下 DeepSeek-V3和 DeepSeek-R1 两款代表性开源大模型,凭借其开源策略、高性能模型和低成本 API 服务,迅速成为全球 AI 领域的焦点。DeepSeek 自主创新本质是工程优化驱动的大模型技术突破。


本部分将从技术和商业维度,重点归纳 DeepSeek 的自主创新为什么“新”。具体来看,技术维度上,DeepSeek 以工程化思想、技术和知识驱动、优化基础算法、开发技术架构,不断迭代优化低成本、高可靠性的模型训练工程项目。商业维度上,摒弃闭源垄断与价格竞争,坚持开源生态共建路线,推动中国人工智能产业从跟随到主动融入全球人工智能创新社区生态。


1.技术路径重构:创新大模型训练范式


DeepSeek 通过软件、硬件、训练技术的协同优化创新,以低成本、高效率的技术路径复现出 OpenAI-o1 级别的性能,突破了 ChatGPT 以来的大模型训练整体流程。AI 大模型背后的发展是所谓的规模定律(Scaling Law),即要素((数据、算力)投入的边际产出下降,模型性能提升需要不断增加要素投入带来规模的门槛要求。DeepSeek 的破解之道在于以算法优化(技术进步)提升算力(要素)的边际产出。


一是软件架构创新。DeepSeek 针对传统混合专家(MoE)架构存在的技术瓶颈,提出“细粒度专家-共享专家”协同机制,将专家利用率标准差降低,提高了训练效率;同时,创造性地将多头潜在注意力机制((MLA)用于高效推理,相较于传统多头注意力((MHA),显存占用大幅下降,推理速度显著提升。


二是硬件交互创新。在硬件交互层面,DeepSeek 通过底层并行线程执行((PTX)指令集优化与多节点通信重构,直接使用 PTX 对 GPU 进行细粒度优化,突破了美国对高端 GPU芯片通信速率的限制,提升了整体运算效率,仅用 2048 块 H800GPU 完成了 V3 模型的预训练,开辟了“小算力驱动大模型”的新思路。


三是训练技术创新。DeepSeek 可能是全球第一个通过纯强化学习技术复现 OpenAI-o1推理能力的团队。其放弃常见路径,采用组相对策略优化((GRPO)算法,跳过标准微调环节,对基础模型进行强化学习,构建 R1-Zero 模型,引导模型生成思维链。针对 R1-Zero 存在的问题,DeepSeek 构建大规模高质量合成数据集,包括利用 R1-zero 生成非数学和代码领域数据、人工标注数据、基础模型 v3 生成的非推理类数据,整合形成约 80 万条数据,训练出性能更强大的 DeepSeek-R1 模型。


2.商业模式变革:构建开源协同生态


DeepSeek 的最大创新不仅在于技术突破,更在于其与技术突破相适应的商业思路的转变。通过开源模型与蒸馏技术,DeepSeek 将产品重心从价格竞争转向生态共建,引导市场关注硬核科技创新、开放共赢的企业经营思路,构建可持续的商业模式。其开源策略不仅加速了通用人工智能技术探索,还为中国本土化自主创新生态的构建与全球影响力提升提供了路径。


一是开源战略重塑行业商业模式。DeepSeek 为什么能取得巨大的社会反响?其中一个重要原因就是其作为首个公开、详细展示自身思维链且性能对标 OpenAI-o1 的开源大模型,给许多使用者带来了人工智能思考能力“跃升”的震撼,反观 OpenAI-o1 在发布时却隐藏自身的核心思维过程,从而失去了技术先机。DeepSeek 的开源模式涵盖高性能模型免费开放、低成本 API 服务及生态内增值服务。2025 年 3 月 1 日,DeepSeek 宣布其成本利润率高达 545%,V3/R1 推理系统理论日利润达到 346 万元人民币,打破了“开源难盈利”的传统。


二是开源技术推动行业部署应用。DeepSeek 通过开源技术与低成本生态布局,推动 AI技术落地普及。利用数据与模型蒸馏技术,实现“小数据驱动大智能”,其轻量化模型表现出色。全面开放模型权重与训练细节,解决企业数据安全顾虑。低 API 定价降低了中小企业和开发者技术门槛。在教育、金融等垂直领域广泛渗透,多家能源央企在应用后准确率提升、计划生成时间大幅缩短。


三是开源生态促进行业持续创新。DeepSeek 启动“开源周”计划,开源关键工具,降低 AI 技术门槛,加速推理算法迭代和我国 AI 基础模型技术提升,催生创新成果。其开源倒逼国际 AI 巨头技术迭代或调整模式,如 X AI 推出 Grok-3、OpenAI 推出 GPT-4.5。同时,我国在 AI 开源技术社区话语权增强,DeepSeek 助力我国从技术跟随向标准制定转变,提振科技自立自强信心。


三、案例分析与发现


正如幻方量化创始人梁文锋在其个人访谈中所言,“外界只看到了幻方量化成立后的 8年,我们实际上做了整整 16 年。”①通过回顾创始人早期经历,能够完整勾勒 DeepSeek 的发展历程,本部分将根据公司创业关键事件将其划分为三个阶段进行分析(如图 2 所示)。

图 2    DeepSeek 的发展历程


(一)初创期:量化初创与基础积累(2008-2016 年)


2008—2016 年是 DeepSeek 前身幻方量化的初创时期。以梁文峰个人对机器学习在量化交易中的应用探索为起点,通过技术自主积累逐步推进,实现 AI 技术在量化领域的初步商业化验证,为后续技术爆发式发展奠定坚实基础。这一时期,外部情境呈现技术与市场双重驱动特征,国内自动量化交易初现,技术机遇中蕴含发展空间,同时期货市场初步发展,沪深 300 股指期货的推出形成市场牵引;创始人梁文峰以研究者素养洞察前沿技术,兼具企业领导者与前沿探索者双重身份,为技术创新注入内核动力。组织能力方面,2008 年起,梁文锋持续学习以量化、自动方式编写炒股策略,积累技术实践经验。技术路线选择量化与 AI交互方向。2015 年幻方量化成立后,明确以实现二者深度融合为目标,锚定技术探索方向。


商业模式上,雅克比及早期幻方采用自营交易模式,聚焦投资交易领域。创新绩效方面,2016年幻方上线首个完整 AI 策略,突破此前依赖线性模型与传统机器学习的局限,实现量化策略创新,推动计算模式从主要依赖 CPU 向更高效的技术层次演进,完成探索式创新的关键跨越。


表 1 初创期的编码结果和典型证据援引

(二)发展期:深度整合与独立研发(2017—2022 年)


2017—2022 年,幻方量化通过技术、资源与市场的深度融合,实现了从全面 AI 转型到软硬件协同创新的跃升,巩固了在量化投资领域的技术领先地位,完成了向更高层次技术探索的重要跨越。这一时期,外部情境为幻方量化的发展提供了多重机遇与支撑,Transformer架构的推出带来技术前沿突破契机,中证 500 股指期货上市等事件推动量化投资市场机遇,而杭州地方政府对金融的宽松监管也形成了制度支持,保障了 DeepSeek 稳定的发展环境。


表 2 发展期的编码结果和典型证据援引


创始人梁文峰以研究者的好奇心驱动,对通用人工智能及其所需的算力规模保持浓厚兴趣,同时以管理者视角整合技术与人才资源,为发展凝聚合力。组织能力层面,2019 年幻方量化投资 2 亿元自主研发“萤火一号”深度学习训练平台,探索算力应用,并通过招募人才、资金投入与高端显卡购置,实现人才、资金和算力的多维度整合。技术路线上,选择算法与算力深度互构,自研算力集群用于量化交易与科研,深化技术壁垒。商业模式上,幻方量化在市场验证价值后,逐步拓展私募量化投资,管理更多私募基金。创新绩效实现组合式突破,“萤火二号”搭载 1 万张先进 GPU,达成软硬件架构革新。2017 年实现所有策略 AI 化,成为国内首家“全 AI 驱动”量化机构;2019 年成立幻方 AI Lab 并构建“萤火一号”超算集群;2021 年“萤火二号”算力规模进一步扩大,期间管理资金规模突破千亿,在 ChatGPT 引发的 AI 浪潮前完成技术储备,为跨界通用人工智能(AGI)布局埋下伏笔。


(三)转型期:技术开源与生态构建(2023 年之后)


2023 年之后,幻方量化迈入技术开源与生态构建阶段。以成立 DeepSeek 为关键转折,开启了从金融领域向通用人工智能的跨越。由此,本研究总结构建了 DeepSeek 自主创新完整过程的理论模型((如图 3 所示)。

图3 DeepSeek 自主创新过程的理论模型


从外部情境看,2022 年底 ChatGPT 的推出带来通用 AI技术飞跃发展,大模型市场机遇显现,国内大模型市场尚处起步阶段且量化市场逐步收紧,同时国家和地方政府对国产自研大模型的关注与扶持形成制度支持。创始人梁文峰以研究者的前沿探索与原创导向,锚定通用人工智能探索目标,其企业家精神体现为追求长周期发展而非短期盈利,管理上重视招募执着技术研究的年轻人挑战前沿科学问题,构建起无 KPI、少层级的扁平化高效管理模式,鼓励自由探索与协作。


组织能力层面,DeepSeek 自 2023 年起自主设计开发,从底层优化训练框架,依托母公司幻方量化的内部资金资助实现资源整合,确保研究不受干扰。技术路线选择低成本迭代与优化,2023—2024 年自研 V2、V3 和 R1 等大模型。商业模式聚焦行业生态赋能,致力于大模型时代 AI 的开源与普惠化。创新绩效实现重构式突破,DeepSeek-R1 以较低训练成本达到国际顶级大模型水平,在算法、训练上实现了工程式优化与路径重构,适配华为昇腾等国产芯片,成功实现从“量化巨头”向人工智能基础设施提供者的战略跃升。


表 3 转型期的编码结果和典型证据援引


四、案例讨论:自主创新的关键要素


通过对 DeepSeek 案例的阶段性分析,可以发现在技术演进与市场竞争的双重语境下,其自主创新呈现多维驱动特征,为进一步理解 DeepSeek 实现创新生态构建、组织管理优化及技术突破路径中的过程机制,其中有以下五点值得格外关注与思考。


(一)长期主义的技术深耕


DeepSeek 的自主创新始于其长期主义的技术深耕。通过长期主义的战略定位,使DeepSeek 在技术积累上形成了深厚的优势,为其自主创新提供了坚实的基础。


在资源投入维度,开展了持续且深入的资源布局。其技术探索起始于梁文锋对深度学习技术的早期研究,随后母公司幻方量化对萤火深度学习平台的优化,更是为其大模型发展筑牢根基。长期对软件与硬件资源的投入,为 DeepSeek 在 AI 领域的深度钻研提供了必要条件,促进了技术的不断积累与迭代。


从技术探索目标来看,公司成立之初就秉持原创导向,与部分企业采用现成技术以快速产出产品不同,它以实现通用人工智能为目标,致力于基础科学突破与工程经验的重组。梁文锋指出,中美在人工智能领域的核心差距在于原创能力,中国若要摆脱追随者地位,前沿探索不可或缺。基于此,DeepSeek 在数学与代码、多模态、自然语言等关键基础研究方向进行布局,这使得其最新模型在数学和代码性能方面超越多数同类产品。


在资金支持模式上,受益于母公司幻方量化持续的资金投入,DeepSeek 具有国内少有的企业自筹资金式的融资研发模式,使其免受短期营收和商业化压力,摆脱了国家或资本投资常见的限制,得以自主运营和自由探索。


(二)核心人物的引领作用


DeepSeek 创始人梁文锋对企业的引领作用主要体现在三个方面:一是市场洞察,屡次选择不被主流看好的技术路线,却总能奇迹般地取得成功。2008 年金融危机期间,当大多数人避之不及的时候,梁文锋却选择研究股市,为后续的量化交易研究奠定了基础;2023 年,当大厂纷纷入局大模型、市场竞争激烈时,梁文锋再次选择了一条“不入流”的路径。他并未跟随大厂专注于快速应用和商业化变现,而是选择专注于通用大模型的研究与探索。


二是战略布局,选择将 DeepSeek 的代码完全开源,共同构建创新生态。梁文锋认为,闭源形成的护城河在颠覆性技术面前是短暂的,真正的护城河在于团队的技术积累与创新能力。他希望,更多人能够低成本使用大模型技术,而不是让技术掌握在少数人和公司手中。


他认为,英伟达等国际巨头的成功不仅是单一公司的努力,而是整个西方技术社区和产业协同的结果,他们手中掌握着下一代的技术路线图。中国 AI 的发展同样需要有公司站到生态的前沿,参与到技术规则的制订中。因此,DeepSeek 从一开始就将目标定位于技术最前沿,致力于推动整个生态的发展,而非仅仅追求短期盈利。


三是团队示范,与国内不少大模型创业公司的创始人忙于管理和业务不同,梁文锋不仅是企业的领导者,更是一位对前沿技术充满好奇的研究者。他每天亲自编写代码,兼具强大的工程能力与模型研究能力,既能从战略高度精准判断,又能在细节上超越一线研究员。他认为,企业文化和氛围不需要刻意去带动,团队的行为更多取决于领导者的个人示范和亲身参与,通过冲在前线亲自解决问题,了解每个岗位的需求,高效地配置资源,这种行为极大地激励了团队对前沿探索的追求,激发了团队对技术的探索精神。


(三)管理扁平化和团队协作


DeepSeek 的自主创新与其扁平化组织管理模式和高效团队协作机制有关。一是组织架构,DeepSeek 采用服务于技术开发的扁平化小团队模式。团队规模维持在 150 人左右,推行“三无政策”,即无固定团队、无汇报关系、无年度计划。战略以周为单位迭代,项目进展向所有相关方同步,成员聚焦自身擅长任务。研究小组依特定目标灵活组建,遇挑战可咨询跨小组专家,确保每个有潜力的创意都能得以推进。这种架构打破层级束缚,极大地提升了信息流通与决策效率。


二是激励机制,DeepSeek 以好奇心驱动成员进行长期前沿探索,摒弃传统 KPI 考核。团队成员因对技术创新饱含热爱而具备强大自我驱动力,无需过度监督便能积极投入工作。这是因为 AI 研发的高度不确定性,KPI 易使员工趋于保守,不利于高风险高回报的创新尝试。凭借此,团队能敏锐捕捉国内外前沿技术动态并实现突破。例如,DeepSeek 在训练中采用了 FP8 精度,这一技术之前主要被一些全球顶尖实验室使用。


二是协作理念,DeepSeek 具备“快速协作”“自下而上”“资源无界”等特点。研究员可不经审批调用算力、自主组队,项目从构思到落地仅需三个月。像多头潜在注意力机制(MLA)的运用,便源自其中一位年轻研究员的兴趣,经内部迅速响应得以验证成功。在硬件资源管理上,幻方量化早在 2021 年就凭借对新卡的预研、测试和规划,成为亚太首批拿到 A100 显卡的公司,领先众多云厂商,凸显其高效协作优势。


(四)基于知识迁移的组织学习


DeepSeek 的自主创新得益于将量化交易领域经验及底层“通用知识”成功迁移至人工智能大模型训练,借此突破知识边界并产出原创知识,在有限资源下达成低成本高性能创新。其母公司幻方量化在量化交易领域秉持“办最多的事花最少的钱”的核心策略,这一理念深刻塑造了 DeepSeek 的研发模式。量化交易中,团队擅长从少量数据挖掘大量信号。在模型训练时,通过优化数据构造与模型架构,实现从少量数据提取高效特征,这与量化交易信号挖掘策略如出一辙。


知识迁移关键在于对显性、隐性知识的融合重组,而非单纯资源组合。DeepSeek 对工程化效率的极致追求便是知识迁移的体现。量化交易里,执行速度决定成败,纳秒级优势关乎交易盈亏,这种对速度的极致要求被迁移至 AI 工程,助力其在硬件优化与算法执行效率上取得领先。例如,在 GPU 优化中,DeepSeek 运用量化交易常见的底层开发思路,直接使用 PTX 编程,这一做法在多数高校和实验室并不多见,凸显其知识迁移在工程实践中的独特性与创新性,推动了大模型训练技术的自主创新发展。


(五)鼓励创新的人才机制


创新的核心是有创造力的人。DeepSeek 具有独特的人才选拔与培育机制,以“年轻、潜力、热爱”为核心,注重能力而非经验,鼓励自主成长与试错,为团队注入了源源不断的创新活力。DeepSeek 的人才选拔机制以“聚焦年轻人潜力、注重好奇心与能力”为核心,打破了传统经验至上的观念。其招聘重点并非经验丰富的 AI 研究人员或高管,而是年轻但潜力巨大的人才,团队成员几乎全是国内顶尖高校的应届毕业生或博士实习生,虽然他们缺乏经验,但是具备各种竞赛经验和创新思维。梁文锋认为,真正的创新往往来自没有包袱的人,因此公司更倾向于招聘对技术充满热情的年轻人,而非习惯于用经验寻找答案的资深从业者。例如,为突破性 V3 模型做出贡献的研究人员大多是顶尖高校的应届毕业生,他们几乎没有工作经验,而是通过反复摸索,找到了符合实际情况的解决方案。


五、主要结论与政策启示


(一)主要结论

本研究通过对 DeepSeek 这一企业自主创新典型案例的研究,基于自主创新这一视角,首先界定自主创新的本质内涵,剖析自主创新的主要特征,并在此基础上构建了 DeepSeek自主创新的形成框架。主要结论如下:


(1)从技术突破的本质内涵来看,当前以 DeepSeek 为代表的中国 AI 大模型自主创新体现为以探索性研究驱动,在有限资源下通过追赶式、本土化和节俭式创新,实现技术突破与普惠化。在技术差距的条件下,通过优化算法、改进训练方法和深度适配中文场景,快速缩小与国际大模型的差距。相比之下,美国的 OpenAI 的 o1 和 xAI 的 Grok-3 等大模型都是在强大算力和资金支持下,追求模型的通用性和性能极限的产物。


(2)从自主创新的主要特征来看,DeepSeek 的自主创新体现为技术路径重构与商业模式协同上。在技术层面,对大模型训练的主流框架下进行多点密集工程化创新,通过软件架构革新、硬件编码突破、训练流程迭代的三维联动,以算法优化提升算力边际产出;商业层面,通过对模型技术的开源化,实现了重塑商业模式、推动行业应用和促进行业持续创新,既通过开放协作降低行业准入门槛,又以差异化服务构建可持续盈利模式。总之,技术突破与商业逻辑的适配性,既破除中国人工智能大模型应用与发展的硬约束,更重塑了全球创新生态。


(3)从自主创新的形成机制来看,DeepSeek 的自主创新形成机制是多维度要素协同作用的成果。从动因来看,不同阶段的技术机遇、市场牵引与制度支持构成了创新的重要外部驱动力。从自动量化交易初现、期货市场发展,到 Transformer 架构、ChatGPT 带来的技术突破以及各阶段政策扶持,都为创新提供了契机与保障。创始人特质发挥着关键引领作用,梁文峰兼具研究者素养与企业家精神,以对前沿技术的敏锐洞察、好奇心驱动的探索以及追求长周期发展的理念,为创新注入核心动力,并通过有效的人才管理凝聚团队力量。组织能力方面,通过持续的组织学习、资源整合及不断优化的管理模式,为创新筑牢根基。从过程来看,技术路线的合理选择以及商业模式的适时调整,明确了创新方向。从结果来看,创新绩效的逐步突破,从探索式创新、组合式创新到重构式创新,既是自主创新的成果体现,又进一步激励创新的持续深入。总之,上述要素相互交织、彼此促进,共同促成了 DeepSeek的自主创新。


(二)政策启示


首先,构建“开放—协同—包容”的创新生态是自主创新的基石,人工智能时代的竞争本质是生态话语权的争夺——当 OpenAI 因封闭策略陷入创新瓶颈时,DeepSeek 通过开源社区汇聚全球智慧。这种开放范式具有双重破壁效应:对内破除"西方路径依赖"迷思,证明本土团队能定义技术框架、对外构建“中国标准输出”通道,吸引全球开发者共建生态。中国 AI 大模型创新需要从“闭门造车”转向“开放共生”,推动开源生态成为新型基础设施。同时,把握好政府的角色,政府要做好服务,减少不必要的干预,应充分发挥有效市场和有为政府的协同作用,通过耐心资本和包容性的投资政策,为创新提供长期支持,避免短期利益驱动的短视行为,确保技术发展的可持续性。开源生态的构建还需要注重包容机制的完善。创新过程中难免会遇到失败和挑战,而一个健康的生态应当能够包容失败,鼓励试错,并通过快速迭代优化技术路径。这种容错机制不仅能够激发创新活力,还能为技术突破提供更多可能性。


其次,培育“市场驱动-组织敏捷-长期主义”的科技民营企业是自主创新的核心动力。作为完全由民营企业幻方量化自主孵化、未依赖国家专项或政策资金的案例,与传统国家创新体系强调政府集中干预的逻辑不同,在摆脱了资本市场逐利性的介入后,致力于前沿探索的民营科技企业能够通过市场的敏感性赋予技术方向纠偏能力、扁平化组织释放个体创造力、风险自担机制孕育长期主义。具体来说,“硬科技”与“新质生产力”正成为民营经济高质量发展的核心引擎,科技民营企业要从市场需求中提炼“真问题”,通过技术创新、管理创新、商业模式创新等打破资源约束,构建正向盈利的创新闭环。科技民营企业需要审视自身的组织架构是否敏捷,小团队未必不能撬动大产业。同时,民营企业和社会各界都需要有穿越技术周期的战略定力,需要有更多愿意探索长期盈利目标的民营企业在关键领域进行技术深潜,才能够推动中国科技创新从规模扩张转向质量突破。


最后,打造“青年主导—潜力优先—跨界贯通”的人才培养体系是自主创新的重要保障。青年科技工作者正在前沿科技创新中扮演着越来越重要的角色,DeepSeek 对年轻人才队伍的建设和管理思路值得借鉴,要加强对青年创新人才的培养,塑造看重潜力而不是经验的创新氛围。未来需要通过科技政策创新,提供良性的教育、科研和应用产业生态,构建对科研充满好奇心的探索团队,面向自主创新优化试错机制和科研评价体系。注重发掘和培养青年的潜力,以青年为主体,充分发挥其在创新创造中的主动性和积极性,让每个年轻创新者都能找到属于自己的“创新生态位”成长,提供个性化的支持和资源。同时,科学知识的边界要跨界突破,就需要构建不同学科体系人才的交叉培育机制,要进一步鼓励拥有多元背景的科学驱动型创业人才作为企业自主创新的引导者,持续开展创新创业活动。


六、结语


本研究可能的理论边际贡献在于:首先,识别了中国 AI 大模型自主创新的主要特征,即在资源约束情境下,以算法创新突破算力限制和开源生态加速技术扩散的模式。其次,整合了组织内部与外部因素,特别关注了中国情境下技术路线与商业模式协同演化的独特机制,构建了“动因-过程-结果”的自主创新分析框架。该框架为理解后发企业的自主创新提供了更加系统、动态的分析工具,对指导企业创新实践具有重要价值。最后,深入讨论了技术深耕、核心人物、管理架构等 DeepSeek 自主创新的关键要素,进一步突破了现有研究对创始人角色的静态理解,强调了每个阶段个体特质的演变。


虽然本研究尝试提出了 AI 大模型自主创新的分析框架,但仍然存在许多有待解决的问题,研究不足及后续前沿展望如下:首先,大模型自主创新的范式在技术领域依赖性上尚未明晰,该路径在人工智能、芯片等算力密集型行业的有效性对一些交叉领域或者基础科学领域的适配性存疑。其次,案例单一性的方法论局限,单案例研究虽能深度解剖机制,但可能受企业特殊性干扰,结论的行业普适性需通过多案例比较进一步验证。最后,本研究尚未深入到国际创新范式比较层面,后续研究可以解析中美企业在其他关键核心领域的底层创新逻辑差异,探索自主创新的多样化路径。



作者:张锦程 李瑞


暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码