全世界都在谈论的DeepSeek AI模型真的有那么好吗?
DeepSeek 是目前最热门的 AI 模型,目前在美国和英国的 Apple AppStore 中位居榜首。DeepSeek 是一款完全免费的 AI 模型,由中国初创公司 DeepSeek 开发,旨在将人工智能推广给更广泛的受众。具体如何实现?DeepSeek 推出了一个与 OpenAI ChatGPT o1 模型竞争的免费版本。
几乎每天都会有新的 UI 应用程序出现在 App Store 中,而且由于人们正在寻找下一个 ChatGPT 替代品,新模型的发布往往会引起很多关注。无论您是 OpenAI 软件的粉丝,还是更喜欢使用 Google Gemini,每个人都可以找到适合自己的 UI 工具,而 DeepSeek 希望成为您主屏幕上的下一个图标。
Tech Radar 网站决定测试 DeepSeek V3 和 DeeThink R1 模型,并将它们与 ChatGPT 4o 和 o1 进行比较。此次比对的主要目的是判断用户在线发表的帖子是否合理,以及 DeepSeek 是否真正对迄今为止在生成人工智能市场占据主导地位的美国人工智能模型构成威胁。
首先是基础知识
在测试中,Tech Radar 希望全面了解 DeepThink 相对于 ChatGPT 所提供的一切,因此以与日常生活中使用 AI 相同的方式使用 AI 聊天机器人似乎是公平的。
ChatGPT o4 和 DeepSeek V3 首先要求两个模型创建一个每日计划,其中包含一些有关用户何时起床、狗的日常活动以及工作简要分解的信息。两种模型都创建了用户实际上每天可以使用的出色时间表。但是,ChatGPT 记忆功能让时间安排变得更加连贯。
首先需要指出的是,DeepSeek 只能记住同一次聊天中的信息,而无法访问以前聊天中的信息来帮助其做出回应。
像向我 5 岁小孩解释一样向我解释。
然后,Tech Radar 向这两款模型询问了非常受欢迎的 NFL 联赛的季后赛情况。他们要求对 NFL 季后赛概念进行 200 字的总结。这两种模型都提供了极好的信息,让人们全面了解系统的运作方式以及球队进入超级碗必须采取的路径。
ChatGPT 选择了一个 200 字的段落,而 DeepSeek 将信息分成要点。他们指出,ChatGPT 提供了更多关于球队如何获得特殊联赛邀请的信息,但结果之间的差异相当小,纯粹基于个人喜好,你会更喜欢其中一个。
解决问题
在介绍了基础知识之后,他们开始讨论主要问题,即 DeepThink R1 是否不负众望。网上有用户写道,免费的 DeepThink R1 模型与 ChatGPT o1 一样好,后者在有限的范围内免费使用,但需要订阅才能完全访问。
为了测试聊天机器人的推理能力,他们寻找了一些他们能找到的最困难的挑战。他们对某些结果感到震惊:
问题 1:找出缺失的单词:Apple、Red、Coal
在测试中,他们决定避免使用多项选择题,而是直接输入问题并按回车键。
ChatGPT o1 花了 1 分 29 秒回答问题,并发现了这些单词与童话故事《白雪公主》之间的联系。该模型决定根据以下引言进行回答:“她的嘴唇红得像血,头发黑得像煤,皮肤白得像雪”根据这句话,o1选择了“Snow”作为缺失单词的答案。虽然这是o1的典型思维过程,但这并不是他们想要的答案。
然而,DeepThink R1 花了 1 分 14 秒才回答出来,并猜出了正确的单词:黑色。苹果是红色的;煤炭是黑色的。至少可以说,令人印象深刻。
问题2: 1.完成序列:1、2、4、8、? 2. 完成序列:房子、土星、狗、汉堡、?
虽然第一个序列非常简单,但第二个序列却不可能(它只是四个随机的单词)。 ChatGPT o1 或 DeepThink R1 能发现陷阱吗?
完全不是。两个模型都尝试寻找答案,但得出的答案却截然不同。DeepThink R1 回答“黄色”,因为它认为这些词与颜色相关(白色的房子、黄色的土星、棕色的狗、黄色的汉堡)。另一方面,ChatGPT o1 回答“汽车”,因为它发现这个序列几乎不可能,但决定基于“经典的谜题方法”提供答案。它选择的方法是将每个对象与其所属的更大类别相关联(房屋 = 建筑物、土星 = 行星、狗 = 动物、汉堡 = 食物、汽车 = 交通工具)。
最终,这两个模型都是错误的,并且都没有明确指出变量太多而无法给出精确的答案。
DeepSeek 与 ChatGPT 相比?
Tech Radar 以各种方式测试了这两种型号,现在的问题是,哪一种更好?根据他们在测试期间收到的反馈,DeepThink R1 是一个很棒的免费推理模型,这可能会让您怀疑是否值得付费使用 o1。 DeepSeek 仅在 iOS App Store 和 Play Store 上线,随后可能会推出适用于 Mac 或 iPad 的独立应用程序。
Tech Radar 决定继续使用 ChatGPT,主要是因为他们严重依赖记忆功能,这使得聊天机器人能够参考以前的对话。 ChatGPT 还受益于适用于 Mac 和 iPad 设备的独立应用程序,以及使用最好的人工智能图像生成器之一 DALL-E 创建图像的能力。
DeepSeek 仅基于文本,缺乏多模式功能,但考虑到这才刚刚开始,它是 UI 模型领域非常有力的竞争对手,我们肯定会听到很多关于它的消息。