我们到底需要怎么样的基座大模型?

我是在24年的五月份开始使用DeepSeek, 当时最吸引我的地方是: 1M Token 1 元

我们只讨论一件事情: 作为开发者/重度使用者 我们需要什么样的基座大模型?

性价比当然是我作为开发者最关注的事情, 成本是非常敏感的问题, 甚至可以说是除了产品方向之外最重要的事情.

当时在讨论性价比之前我们要讨论什么是性能, 也就是说大模型的性能体现是什么?

笔者认为对于开发者来说, 重要性从高到底分别是:

  1. 生成质量: 创造性, 可靠性, 事实一致性, 指令遵从能力
  2. 上下文窗口, 知识新鲜度, 多模态能力
  3. Context Cache, 推理速度, 并发度, 微调支持, 多语言, function-call, json-output

除此之外, 我们可以用其他的工程方法来进行某些方面的补充:

  1. RAG, Web-Search: 增强事实依据/知识新鲜度/领域知识
  2. Workflow: 补充多模态, 增强生成质量

但是我们要注意到, 这些工程方法都是有代价的:

  1. 塞入更多的上下文会带来更慢的推理速度, 更高的价格
  2. 多个模型协作看起来很美好, 但是太慢了, 5S就是用户能够接受的极限.

为什么是DeepSeek-R1?

根本原因是推理模型带来了极佳的生成质量, 这种生成质量相较于之前的大模型直接生成有着直接的提高.

在此之前, CoT并不是什么秘密, 但是CoT太局限了, 对于某些特定领域效果很好, 但是很难辐射到所有领域.

这部分我们不妨来看看SillyTarven的最玩家都在干嘛来提升模型的效果? 手动设计细致的CoT来增加生成长度, 借此来获取更好的生成效果.

但是推理模型天生就带着一套90分的CoT, 再加上DeepSeek-V3本就十分出色的基座模型. 效果自然十分出色.

另外: 价格. 太便宜了, 这个价格仅仅是o1的零头.

Open Source

我们必须要说从DeepSeek-V1 -> DeepSeek-R1, DeepSeek一直走在开源的前沿, 但是在这里还有额外提Qwen, 我认为Qwen/DeepSeek/llama是现在这个时间点的开源三雄.

顶尖开源模型的性能能够追赶上闭源模型

这件事情的影响要比现在想象的要更大, 这意味着云服务商/推理服务提供商迎来了一个绝好的机会, 也就是占据模型推理的市场, 在此之前这部分一直被OpenAI/Claude占据着, 现在有机会吃掉一部分市场, 而不是再做代理. 这对有着强推理技术的厂商, 大优!

后续的云厂商大概率会为开源模型提供一条特殊通路, 也就是现在的硅基流动的商业模式. 这对于开发者是极大的利好.

训练成本

DeepSeekV3的训练成本控制非常出色, 论文中写是5.60M美元的成本.

这意味着: 大模型训练可能不是只有无限资金流的玩家才能烧的起.

我认为这对于提振整个行业的技术信心是极好的!

而且, 相较于Llama的高成本, DeepSeek的开源对于拓展开源世界的边界也有大好处.

这件事情的影响会在2025年越来越显现出来.

那些要死去的

我认为现在的AI六小龙都不会好过

产品没有想象力, 基座模型的研发又不能称之为顶尖, 成本控制又不够极致

三者折合下来, 我认为他们必须加快转型的速度. DeepSeek实际上是为他们开启了倒计时.

  1. 推出有想象力的产品
  2. 拿出顶尖生成质量的模型
  3. 出色的成本控制

这三者必须满足其二, 我认为才有机会. 我不认为靠融资能够再活3年.

闭源市场是一个赢家通吃的市场: 即最优秀的模型会吃掉最大的蛋糕.

开源市场会迎来云厂商的黄金时代: 即出色的模型能力和价格可以兼得

那么, 那些模型能力出色, 但是价格昂贵的模型们呢?

会死掉, 而且是悄无声息的死掉.

30年的互联网只证明一年事情: 赢得用户 或者 帮助用户赢得用户

前者是直接面向用户, 后者指代的事面向用户的产品开发部门.

靠B端, G端, 可以活着, 但是那意味着彻底失去想象力

总结

  1. 开源模型会迎来黄金时期, 希望如此, 希望如此
  2. 闭源模型必须推出领先一个等级的新模型, 而且必须要有一定的价格控制
  3. Infra as Service会成为非常重要的补充模式
  4. 模型能力与模型价格兼备的选项会越来越多, 绝对利好开发者, 利好应用侧发力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/881895.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025/2/10课堂记录

树上依赖背包,分组背包,vector邻接表,选课,树上dp,叶子的染色,链式前向星邻接表,数字转换,树的直径目录选课 叶子的染色 数字转换选课分组背包题 这次是自己写的代码了,也就瞟了标准答案几眼,真的就几眼用的也是vector邻接表#include<iostream> #include<ve…

3.4 什么是浮点数

很多编程语言中都提供了两种表示小数的数据类型,分别为双精度浮点数和单精度浮点数 双精度浮点数类型用64位、单精度浮点数类型用32位来表示全体小数。 在C语言中,双精度浮点数类型和单精度浮点数类型分别用double和float来表示 浮点数是指用符号、尾数、基数和指数这四部分来…

响应

ResponseBody注解 位置:controll类和方法 作用:将方法返回值直接相应,如果是实体对象和集合转成Json形式再相应、 统一响应格式 result里有静态方法

并行计算架构和编程 | 目录

from pixiv JW资源汇总 前言 开新坑了,尽量完成它吧. 此篇博客为目录章节,主要汇总学习过程中用到的资料,记录时间线。 SourceCS自学指南 CMU 15-418/Stanford CS149: Parallel Computing 了解此课程的主要起始地,下面的评论含有价值的信息 PKUFlyingPig/CS149-parallel-co…

使用Microsoft/Windows LAPS管理本地管理员密码

什么是LAPS Local Administrator Password Solution,简称LAPS,是微软提供的一种用于管理本地管理员密码的解决方案。用于在Active Directory(AD)环境中自动管理和轮换众多客户端Windows的本地管理员账户及密码。 在没有这个工具之前, 本地管理员密码管理会非常的复杂。比如…

Avalonia系列文章之布局简介

在UI设计中,页面布局非常重要,良好的布局不仅可以有效的利用空间,还能提升交互体验,以达到事半功倍的效果。所以对于Avalonia UI初学者来说,布局控件的了解与学习也非常的重要,今天以一些小例子,简述Avalonia UI框架中布局控件的使用,仅供学习分享使用,如有不足之处,…

ACM寒假集训第四期

ACM寒假集训第四期 有理数取余 思路 bx=a mod m x=((a mod m) * ( b^(-1) ) mod m)) mod m; 问题就转化为如何求解 b 的逆元 b x = 1 mod m ,b对m的逆元,当 gcd(b,m)=1 时才存在。存在 bx+my=1 通过辗转相除法可以得到b,m的最大公约数然后根据最后得到的一系列等式合并为 bx+m…

昆明理工大学2025年硕士研究生调剂汇总表(2月10日更新)

这是今年昆明理工大学调剂信息,目前只更新了部分学院的部分专业,后续会持续更新。 【腾讯文档】昆明理工大学2025年硕士研究生调剂汇总表 https://docs.qq.com/sheet/DZERIbnpPb3JjeHFO

推荐一款人人可用的开源 BI 工具,更符合国人使用习惯的数据可视化分析工具,数据大屏开发神器!

前言 今天大姚给大家推荐一款人人可用的开源、免费的 BI 工具,更符合国人使用习惯的数据可视化分析工具,数据大屏开发神器,Tableau、帆软的开源替代:DataEase。工具介绍 DataEase是一个开源的数据可视化分析工具,可以帮助用户快速分析数据并洞察业务趋势,从而实现业务的改…

清华大学推出的 DeepSeek 从入门到精通(104页)免费教程!

前言 最近 DeepSeek 的出现让 AI 在国内掀起了一股浪潮,各大媒体、平台都在讨论和推广 DeepSeek,帮助各行各样使用 AI 不再有困难。今天大姚给大家分享一个由清华大学推出的、免费的:DeepSeek从入门到精通实用教程,该教材有着足足的104页能够快速的帮助大家了解和使用DeepS…