从中国走向全球：DeepSeek潜入寻常百姓家 AI人人可亲

黄少伟

发布/2025年2月21日 05:00

中国人工智能“深度求索”（DeepSeek）的诞生震惊全球，科技专家剖析个中原因，并乐见高科技降低门槛，让中小企业，甚至是个人都唾手可得，借人工智能改善生活提升效率。我国更可以较少的资源发展科学和经济。

DeepSeek推理模型R1，性能几乎可媲美OpenAI的模型。（路透社）

2025年1月20日，一家默默无闻的中国人工智能（AI）初创公司“深度求索”（DeepSeek）选择在美国总统特朗普就职当天，发布一款开源的推理模型R1，性能几乎可媲美全球AI巨头OpenAI的o1模型。DeepSeek的横空出世撼动了全球AI竞赛的格局，促使各国重新审视中国在人工智能领域的崛起与潜力。

推理模型，顾名思义指具备推理能力的大语言模型。推理模型在面对复杂任务场景时，可以通过多步骤推理生成答案，且能通过在后训练或在线推理阶段加大资源投入，提升模型性能。推理模型因此被视为大语言模型发展的新方向。

卡巴斯基人工智能技术研究中心的团队经理图什卡诺夫说，DeepSeek R1免费给用户使用并且又是开源，因此引起人们极大关注。（受访者提供）

网络安全公司卡巴斯基（Kaspersky）人工智能技术研究中心的团队经理图什卡诺夫（Vladislav Tushkanov）说：“推理模型其实始于OpenAI去年12月发布的o1模型，不过o1模型是闭源的，而且只有付费用户才能使用。DeepSeek R1则是免费给用户使用，并且还开放给大家看它的推理思维方式，因此引起人们极大关注。”

开源的推理模型有什么好处？图什卡诺夫回答：“你可以检视推理过程，更好地修正问题。如果模型给出错误答案，你可以找出哪里出错。另外，如果模型的推理表现很好的话，你可以把知识转移到较小模型中，我们称之为蒸馏（distillation），这样更方便部署。 ”

南洋理工大学计算机与数据科学学院副教授李搏扬说，要大型语言模型推理并不容易实现。（陈渊庄摄）

南洋理工大学计算机与数据科学学院副教授李搏扬说：“大型语言模型做推理是困难的技术问题。DeepSeek这家不知名的初创公司不仅成功实现，在推理准确度上也足以匹敌世界第一的OpenAI。其次是模型效率，DeepSeek称仅耗资600万美元，使用2000块英伟达H800图形处理器（GPU）就完成了模型训练。据外界估计，OpenAI的GPT-4的训练成本高达8000万至1亿美元。”

绕过“遥控器”发指令技术难度高

由于受到美国的AI晶片管制，DeepSeek被迫想出一系列工程创新，大大降低模型推理和训练成本。其中一大创新是绕过CUDA（英伟达GPU晶片的通用并行计算接口，用来处理人工智能的复杂计算），采用另一个编程语言，使DeepSeek工程师能够更好地控制GPU指令的执行，提高GPU利用率。

李搏扬以冷气机为比喻：“每个人都用遥控器来调节冷气，遥控器每按键一次可调节温度一度，不提供一次调节半度的功能。若想实现以半度为单位的精准调节，则需要直接控制冷气机内部的元件。DeepSeek所做的就是绕过‘遥控器’，直接与冷气机内部系统对接，使用更底层的编程语言向GPU发指令，因此效率较高。这种做法技术难度较高。”

DeepSeek也采用了“混合专家”（Mixture of Experts，简称MoE）模型。多个“专家”（即小型模型）组合在一起，每个专家负责处理不同类型的数据或任务。MoE的优点是可以让每个专家专注于自己擅长的领域，从而提高整体的效率。

新加坡国立大学计算机学院计算机科学系教授邓锦浩认为DeepSeek的出现，推动了AI民主化。（龙国雄摄）

新加坡国立大学计算机学院计算机科学系教授邓锦浩解释：“中国有句俗话说：三个臭皮匠赛过一个诸葛亮。DeepSeek有很多个臭皮匠，准确来讲是256个小专家。回答问题的时候，它不是由256个专家一起回答，而是把问题传给八个专家，再由八个专家综合给出一个答复。它是分而治之的模型，并不需要一个很快的显卡来训练。”

DeepSeek可免费使用还可客制化

邓锦浩也是国大人工智能院城市可持续发展人工智能的负责人。他认为DeepSeek的出现，推动了AI民主化：“我一直很担心中小企业没有资源去用AI。之前的大语言模型都需要昂贵的设备和人才才能运用。DeepSeek是开源的，任何人可以免费使用，用户若具备一些技术知识还可客制化。蒸馏的模型可以放在一个平常的设备，例如手机或电脑使用。”

他认为DeepSeek也可以推动本地的科学发展：“我们没有美国科技公司那么多的资源，DeepSeek能让我们以较少的资源去发展科学和经济领域。”

邓锦浩笑说：“杀鸡不需要用牛刀。ChatGPT就是杀鸡用牛刀的概念，样样都要这么大的处理器。DeepSeek让你的设备变得更小，用电量更少，更便携。大家之前没有选择，现在可以选。”

美国知名心理学家（Daniel Kahneman）把人类的思考模式分为快思考（系统1）和慢思考（系统2）。系统1是依赖直觉的、无意识的思考系统；系统2是需要主动控制、有意识进行的思考系统。

李搏扬说：“到目前为止，我们构建的AI技术，如大型语言模型，与系统1很相似。然而逻辑推理和数学能力需要系统2，这方面DeepSeek虽然超过前一代的系统，但是远非完美。例如，当乘法中数字的位数过多，超过两个十位数相乘，DeepSeek会给出错误答案。这种在人类看来很简单的数学，DeepSeek却无法正确执行。缺乏系统2能力是大型语言模型的普遍问题，不仅DeepSeek，OpenAI的所谓推理模型也面临同样问题。”

许多人很关注AI技术的安全性，特别是在个人数据保护和隐私方面。DeepSeek最近就因隐私问题在韩国被迫下架。

图什卡诺夫说，人们要分清DeepSeek模型和DeepSeek聊天机器人服务：“DeepSeek模型一个很酷之处是它是开源的。基本上，任何人都可以下载到自己的电脑上，并且完全本地运行。你只在自己的硬件上运行，就能避免个人数据和隐私外泄。”

另一方面，DeepSeek也提供了聊天机器人服务。这类云服务与ChatGPT、谷歌Gemini等类似，具有相同的优势和风险。图什卡诺夫说，数据可能会外泄，例如有研究人员曾发现DeepSeek使用的一个数据库有安全漏洞，而DeepSeek很快便修复这一漏洞。

不少用户尝试向DeepSeek询问一些比较敏感的政治话题，如“六四”事件、台湾主权、西藏、新疆议题等，DeepSeek不是不回答，就是提供中国官方立场的答案，引发了广泛讨论。

对此，图什卡诺夫说：“每家公司都必须遵守所在国家的法律。不同AI服务公司在法律上能做的事有所不同。这并不是一个技术问题，也与安全无关。”

DeepSeek对中美科企的影响

DeepSeek问世对OpenAI产生了巨大冲击。或是迫于压力，OpenAI在美国时间1月23日迅速推出o3-mini推理模型，也是该公司首次向免费用户开放的推理模型。

OpenAI首席执行官奥尔特曼（Sam Altman）随后快马加鞭，2月13日宣布OpenAI将在未来几个月内推出GPT-5模型，并让ChatGPT免费用户无限使用。GPT-5将把o1及o3推理模型与GPT系列模型整合在一起，打造一个全新系统，“能自动选择思考和非思考功能，适用于多种任务”。

多家美国科技公司也争相开始使用DeepSeek模型。微软宣布将DeepSeek-R1部署在自家的Azure云服务上。此外，DeepSeek-R1的精简模型也被纳入微软平台Azure AI Foundry和GitHub的模型目录，让开发者在个人电脑上运行。

英伟达（Nvidia）开发者网站也将DeepSeek-R1模型纳入“最受欢迎模型”栏目，且已可在NVIDIA NIM微服务上使用。英伟达开发者网站称，DeepSeek-R1模型是最先进、高效的大型语言模型，在推理、数学和编码方面表现出色。

此外，亚马逊云科技（AWS）也让用户在旗下两大AI服务平台上部署“功能强大、成本效益高”的DeepSeek-R1模型。

在大西洋的另一端，DeepSeek在中国的生态圈也日益扩大。中国科技巨头腾讯旗下的通讯应用微信2月16日认证灰度测试接入DeepSeek。所谓灰度测试，是在某项产品或应用正式发布前，选择特定人群试用，逐步扩大其试用者数量，以便及时发现和纠正问题。