Thursday, February 27, 2025

从中国走向全球:DeepSeek潜入寻常百姓家 AI人人可亲

从中国走向全球:DeepSeek潜入寻常百姓家 AI人人可亲
https://www.zaobao.com.sg/lifestyle/feature/story20250221-5898165
zaobao singaporeZaobao

从中国走向全球:DeepSeek潜入寻常百姓家 AI人人可亲

发布/2025年2月21日 05:00
中国人工智能“深度求索”(DeepSeek)的诞生震惊全球,科技专家剖析个中原因,并乐见高科技降低门槛,让中小企业,甚至是个人都唾手可得,借人工智能改善生活提升效率。我国更可以较少的资源发展科学和经济。
DeepSeek推理模型R1,性能几乎可媲美OpenAI的模型。 (路透社)






2025年1月20日,一家默默无闻的中国人工智能(AI)初创公司“深度求索”(DeepSeek)选择在美国总统特朗普就职当天,发布一款开源的推理模型R1,性能几乎可媲美全球AI巨头OpenAI的o1模型。DeepSeek的横空出世撼动了全球AI竞赛的格局,促使各国重新审视中国在人工智能领域的崛起与潜力。

推理模型,顾名思义指具备推理能力的大语言模型。推理模型在面对复杂任务场景时,可以通过多步骤推理生成答案,且能通过在后训练或在线推理阶段加大资源投入,提升模型性能。推理模型因此被视为大语言模型发展的新方向。



卡巴斯基人工智能技术研究中心的团队经理图什卡诺夫说,DeepSeek R1免费给用户使用并且又是开源,因此引起人们极大关注。(受访者提供)

网络安全公司卡巴斯基(Kaspersky)人工智能技术研究中心的团队经理图什卡诺夫(Vladislav Tushkanov)说:“推理模型其实始于OpenAI去年12月发布的o1模型,不过o1模型是闭源的,而且只有付费用户才能使用。DeepSeek R1则是免费给用户使用,并且还开放给大家看它的推理思维方式,因此引起人们极大关注。”

开源的推理模型有什么好处?图什卡诺夫回答:“你可以检视推理过程,更好地修正问题。如果模型给出错误答案,你可以找出哪里出错。另外,如果模型的推理表现很好的话,你可以把知识转移到较小模型中,我们称之为蒸馏(distillation),这样更方便部署。 ”



南洋理工大学计算机与数据科学学院副教授李搏扬说,要大型语言模型推理并不容易实现。(陈渊庄摄)

南洋理工大学计算机与数据科学学院副教授李搏扬说:“大型语言模型做推理是困难的技术问题。DeepSeek这家不知名的初创公司不仅成功实现,在推理准确度上也足以匹敌世界第一的OpenAI。其次是模型效率,DeepSeek称仅耗资600万美元,使用2000块英伟达H800图形处理器(GPU)就完成了模型训练。据外界估计,OpenAI的GPT-4的训练成本高达8000万至1亿美元。”

绕过“遥控器”发指令技术难度高

由于受到美国的AI晶片管制,DeepSeek被迫想出一系列工程创新,大大降低模型推理和训练成本。其中一大创新是绕过CUDA(英伟达GPU晶片的通用并行计算接口,用来处理人工智能的复杂计算),采用另一个编程语言,使DeepSeek工程师能够更好地控制GPU指令的执行,提高GPU利用率。

李搏扬以冷气机为比喻:“每个人都用遥控器来调节冷气,遥控器每按键一次可调节温度一度,不提供一次调节半度的功能。若想实现以半度为单位的精准调节,则需要直接控制冷气机内部的元件。DeepSeek所做的就是绕过‘遥控器’,直接与冷气机内部系统对接,使用更底层的编程语言向GPU发指令,因此效率较高。这种做法技术难度较高。”

DeepSeek也采用了“混合专家”(Mixture of Experts,简称MoE)模型。多个“专家”(即小型模型)组合在一起,每个专家负责处理不同类型的数据或任务。MoE的优点是可以让每个专家专注于自己擅长的领域,从而提高整体的效率。



新加坡国立大学计算机学院计算机科学系教授邓锦浩认为DeepSeek的出现,推动了AI民主化。(龙国雄摄)

新加坡国立大学计算机学院计算机科学系教授邓锦浩解释:“中国有句俗话说:三个臭皮匠赛过一个诸葛亮。DeepSeek有很多个臭皮匠,准确来讲是256个小专家。回答问题的时候,它不是由256个专家一起回答,而是把问题传给八个专家,再由八个专家综合给出一个答复。它是分而治之的模型,并不需要一个很快的显卡来训练。”

DeepSeek可免费使用还可客制化

邓锦浩也是国大人工智能院城市可持续发展人工智能的负责人。他认为DeepSeek的出现,推动了AI民主化:“我一直很担心中小企业没有资源去用AI。之前的大语言模型都需要昂贵的设备和人才才能运用。DeepSeek是开源的,任何人可以免费使用,用户若具备一些技术知识还可客制化。蒸馏的模型可以放在一个平常的设备,例如手机或电脑使用。”

他认为DeepSeek也可以推动本地的科学发展:“我们没有美国科技公司那么多的资源,DeepSeek能让我们以较少的资源去发展科学和经济领域。”

邓锦浩笑说:“杀鸡不需要用牛刀。ChatGPT就是杀鸡用牛刀的概念,样样都要这么大的处理器。DeepSeek让你的设备变得更小,用电量更少,更便携。大家之前没有选择,现在可以选。”

美国知名心理学家(Daniel Kahneman)把人类的思考模式分为快思考(系统1)和慢思考(系统2)。系统1是依赖直觉的、无意识的思考系统;系统2是需要主动控制、有意识进行的思考系统。

李搏扬说:“到目前为止,我们构建的AI技术,如大型语言模型,与系统1很相似。然而逻辑推理和数学能力需要系统2,这方面DeepSeek虽然超过前一代的系统,但是远非完美。例如,当乘法中数字的位数过多,超过两个十位数相乘,DeepSeek会给出错误答案。这种在人类看来很简单的数学,DeepSeek却无法正确执行。缺乏系统2能力是大型语言模型的普遍问题,不仅DeepSeek,OpenAI的所谓推理模型也面临同样问题。”

许多人很关注AI技术的安全性,特别是在个人数据保护和隐私方面。DeepSeek最近就因隐私问题在韩国被迫下架。

图什卡诺夫说,人们要分清DeepSeek模型和DeepSeek聊天机器人服务:“DeepSeek模型一个很酷之处是它是开源的。基本上,任何人都可以下载到自己的电脑上,并且完全本地运行。你只在自己的硬件上运行,就能避免个人数据和隐私外泄。”

另一方面,DeepSeek也提供了聊天机器人服务。这类云服务与ChatGPT、谷歌Gemini等类似,具有相同的优势和风险。图什卡诺夫说,数据可能会外泄,例如有研究人员曾发现DeepSeek使用的一个数据库有安全漏洞,而DeepSeek很快便修复这一漏洞。

不少用户尝试向DeepSeek询问一些比较敏感的政治话题,如“六四”事件、台湾主权、西藏、新疆议题等,DeepSeek不是不回答,就是提供中国官方立场的答案,引发了广泛讨论。

对此,图什卡诺夫说:“每家公司都必须遵守所在国家的法律。不同AI服务公司在法律上能做的事有所不同。这并不是一个技术问题,也与安全无关。”

DeepSeek对中美科企的影响

DeepSeek问世对OpenAI产生了巨大冲击。或是迫于压力,OpenAI在美国时间1月23日迅速推出o3-mini推理模型,也是该公司首次向免费用户开放的推理模型。

OpenAI首席执行官奥尔特曼(Sam Altman)随后快马加鞭,2月13日宣布OpenAI将在未来几个月内推出GPT-5模型,并让ChatGPT免费用户无限使用。GPT-5将把o1及o3推理模型与GPT系列模型整合在一起,打造一个全新系统,“能自动选择思考和非思考功能,适用于多种任务”。

多家美国科技公司也争相开始使用DeepSeek模型。微软宣布将DeepSeek-R1部署在自家的Azure云服务上。此外,DeepSeek-R1的精简模型也被纳入微软平台Azure AI Foundry和GitHub的模型目录,让开发者在个人电脑上运行。

英伟达(Nvidia)开发者网站也将DeepSeek-R1模型纳入“最受欢迎模型”栏目,且已可在NVIDIA NIM微服务上使用。英伟达开发者网站称,DeepSeek-R1模型是最先进、高效的大型语言模型,在推理、数学和编码方面表现出色。

此外,亚马逊云科技(AWS)也让用户在旗下两大AI服务平台上部署“功能强大、成本效益高”的DeepSeek-R1模型。

在大西洋的另一端,DeepSeek在中国的生态圈也日益扩大。中国科技巨头腾讯旗下的通讯应用微信2月16日认证灰度测试接入DeepSeek。所谓灰度测试,是在某项产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正问题。

据悉,微信用户可在对话框顶部搜索入口看到“AI搜索”字样,点入后可免费使用DeepSeek-R1模型。AI搜索功能不仅整合微信公众号、视频号等腾讯生态内的信息源,还支持联网搜索,为用户提供更全面的回答。

继微信之后,中国百度搜索在同一天也宣布将全面接入DeepSeek和自家的文心大模型深度搜索功能。随后,文心智能体平台宣布也将全面接入DeepSeek,该平台是给开发者用来打造各种AI产品的。

目前已有超过200家中国企业宣布接入DeepSeek,包括华为、阿里、京东等,覆盖基础电信、云计算、芯片、金融、汽车、手机等领域。

本文章为订户专享内容

订户登录后,即可阅读全文!

无论是保健、美食、旅游、居家还是流行文化资讯,随心选看,休闲自在。立即订阅《联合早报》!

早报数码配套个人版(每月付费)

每月 $9.90*

立即订阅

*无合约


购买此文章
Close gift modal
Gift subscribe icon订户专享 赠阅文章
选择赠阅文章将生成赠阅链接,您本月的余额将减少一次。链接分享期限为 30 天。
  • Link to facebook
  • Link to twitter
  • Link to wechat
  • Link to whatsapp
  • Link to telegram
您之前已生成过这篇文章的赠阅链接,您本月的余额保持不变。了解更多

No comments:

Post a Comment