御三家大模型横评(Claude, Gemini, GPT)和一些大模型厂家现状的想法 --知识铺
介绍
这篇文章主要是结合我的个人感受谈谈大模型御三家各个模型的使用体验,首先详细谈谈Google的Gemini模型。
Gemini
尽管 Gemini 在国内的讨论热度不及其他模型,但从我的实际体验来看,其旗舰模型 Gemini-Exp-1206 的综合能力已经稳超 GPT-4o。也就是在代码上略逊于或持平于 Claude-3.5-Sonnet,但其拥有的 2M 超大上下文窗口在处理长文本、复杂文档等特定场景下具有其他模型无法比拟的优势。而且Gemini系列模型是目前唯一完全支持多模态输入的(除了图片之外还包括音频和视频),在AI Studio中可以看见各类输入所占用的token。最关键的是通过Google的Ai Studio使用是完全免费的。
进入AI Studio之后,可以看到如上图所示的界面。这个界面看起来没有其它大模型网站那么简洁和现代化。其实Gemini是官方的APP平台的,界面如下所示
看起来就简洁和现代化了,但是为什么要区分出这两个平台呢
这里详细解释一下使用Gemini模型的三个平台,分别是Gemini App、Google AI Studio 和 Google Vertex AI。这三个平台面向不同的用户群体和使用场景,因此在使用 Gemini 模型时会有一些差异,从使用场景来看:
- Gemini App: 面向普通用户,提供简单易用的交互界面,主要用于体验 Gemini 的基本功能,例如文本生成、问答、图像理解等。强调易用性和便捷性,无需编程基础。
- Google AI Studio: 面向开发者和研究人员,提供基于 Web 的集成开发环境 (IDE),支持代码编写、模型训练和实验。强调灵活性和可定制性,适合进行 AI 算法研究和原型开发。
- Google Vertex AI: 面向企业级用户和需要大规模部署 AI 应用的开发者,提供端到端的机器学习平台,涵盖数据准备、模型训练、模型部署、模型监控等全流程。强调可扩展性、稳定性和企业级特性,适合构建和部署生产级别的 AI 应用。
上面这段是Gemini帮我生成的。
所以AI Studio的UI没有Gemini App简洁就很正常了。
Gemini APP如果不开通会员的话,只能使用到Gemini-2.0-Flash-Exp模型,并且只能上传图片,不支持PDF上传(开通了会员也不能上传PDF)。而在AI Studio中,不仅能免费体验到最新的旗舰模型Gemini-Exp-1206,还能上传PDF和进行语音/视频通话(Gemini-Exp-1206没有给出免费额度,但Gemini-1.5pro的免费额度是2request每分钟,50request每天,Gemini-2.0-Flash-Exp的免费额度是10request每分钟和1500request每天,因此推测Gemini-Exp-1206作为新一代期间模型免费额度应该与上一代Gemini-1.5pro接近,但是从我的使用情况来看,应该比这个额度要大)。
接下来介绍AI Studio的主要使用界面,首先是左侧的Create Prompt,相当于新建对话,但要注意这里的历史记录并不会自动保存,它需要通过右上角的Save to Disk保存到Google云盘中,为了方便可以在设置中打开自动保存。历史会保存到左侧的Library中。从这里可以看出来它的本意是让你测试不同的User Prompt和System Prompt效果有什么区别。
其次是左侧的Stream Realtime,这里相当于GPT-4o的对话和视频功能,但是它不能保存历史记录。从使用体验上来看,我觉得是比GPT-4o要更好的。对话能力上它比GPT-4o能更准确判断出你当前是位于停顿还是结束,GPT-4o在使用的时候稍微停顿一两秒就马上急不可耐地输出了。而且视频通话从聊天记录来看是原生支持的,可以看到自己的聊天语音和视频录制,也就是当你打开视频通话选项后它是在你对话的同时录制视频进行分析。而GPT-4o有博主测过视频通话是截取图片进行分析,如果视频画面变化很快的话是识别不出来的。
右侧是关于模型的选项,通过Model选取模型,选择模型的时候会告诉你当前模型的信息,如下所示。从Rate limits中的Free可以看免费额度
Temperature 和 Top P 是用来控制语言模型生成文本的两个参数。它们主要影响生成结果的多样性和可靠性。Temperature (温度) 值越高,模型生成的文本越多样、越有创意,但也更容易出现逻辑错误或不符合事实的内容。默认的 Temperature 值是 1.0,我通常使用 0.7 来平衡多样性和可靠性,而 0.3 则更适用于需要准确和严谨输出的场景。Top P 参数则通过设定概率阈值来控制候选词的选择范围,仅保留累积概率达到该阈值的最高概率的词汇,这有助于在保持多样性的同时避免生成过于离谱的输出。比如0.95就是从大到小选择概率累计值达到95%的token,去除后面的token,Top P越大,输出越多样性。一般都是选择调整Temperature,Top P默认0.95。
通过左上角的Get API Key链接可以获得API Key,注册是通过Google Cloud平台,会送三个月内大约几百美金的额度。
模型特点概述
接下来谈谈其它的模型,首先总结一下各模型的特点
- Claude-3.5-Sonnet:在当前评测的模型中,最聪明也最有人味的模型,理解和表达能力卓越,但可惜网页版惜字如金,输出文本长度过于保守。同时Claude的使用限量也是最严格的,很容易达到使用上限,使用限制大概在30条每四小时(这里的条数只是根据平均上下文长度估算的,在上下文较长的时候甚至十几条就到上限了,开了会员还是这个限制属实不应该),Reddit上可以看见不少抱怨使用限制的帖子。主要原因还是推理成本,Anthropic属于三家里面算力最少的,每一个token都要精打细算。调用API输出长度会相对好点,毕竟每一个输出token都是收入。而且Anthropic的主要收入来源也是API端,占了好像80%,没那么注重网页端也在情理之中了。
- Claude-3.5-Haiku:作为一款轻量级模型,其定价相对较高,定位略显尴尬。比能力Deepseek-V3比它更便宜且更强大,比成本Gemini-Flash-2.0在能力相近甚至跟强的同时定价基本可以看作基本不要钱。
- Gemini-1.5-Pro:表现中规中矩,大致相当于24年初gpt-turbo的水准,但文本翻译能力不错。
- Gemini-2.0-Flash-Exp / Gemini-1.5-Flash:性价比之选,open-router上的调用token数仅次于Claude-3.5-sonnet,可以看出其受欢迎程度。
- Gemini-2.0-Flash-Thinking-Exp-1219:略逊于o1,上下文窗口略短,但原生支持多模态,暴露思维链,而且免费。
- Gemini-Exp-1206:大模型黑马,拥有超大上下文窗口,能够处理海量信息。其生成的回答内容详尽丰富,输出跟不要钱一样(说的就是你Claude),综合使用体验极佳,是当前我最推荐的模型。
- GPT-4o:作为去年五月发布的模型,虽然还在一直更新,但从能力上而言已经开始落后了,整体表现相对平庸,甚至感觉好像还有变傻的趋势,从智力上而言有的场景还不如GPT4-Turbo,应该是个蒸馏的模型。其优势在于移动端应用的用户体验,适合用于图像识别(餐馆拍菜单)或英语口语练习等(出国开会就靠这个)。
- GPT-o1: 相较于最初发布的 o1-preview 版本,该模型并未带来预期的惊喜,在某些问题上的表现甚至有所退步。在非 API 调用场景下,其回答问题的思考时间过短,推测是为了控制成本而默认采用了最低的推理强度。此外,该模型并非原生支持多模态,其图像识别功能实际上是先由 GPT-4o 进行图像描述,再基于文本进行推理,并非直接的图像理解。
接下来结合我主要的几个使用场景谈谈上述模型的表现。平时主要用Claude-3.5-Sonnet,Gemini-Exp-1206, GPT-4o和o1。以下的Claude指Claude-3.5-Sonnet,Gemini指Gemini-Exp-1206。
代码
从代码生成的角度来Claude-3.5-Sonnet仍然是目前最强,目前使用方式是网页端和cursor中使用API调用。但是面对一些比较大规模的仓库或者需要详尽的分析时,Gemini也会有很不错的效果。有时候也会使用Cline来生成一些比较简单的demo,用Claude-3.5-Sonnet的API就偏贵,一次需要1美元左右,Gemini虽然稍微差点,但免费还要啥自行车。
对于比较困难的问题,有的时候o1会给出一些意想不到的解法,但大部分情况下都不如Claude-3.5-Sonnet。(现在对o1模型已经不抱太大的期待了)
论文
之前写论文我都是用网页端的Claude,但是一写到后面上下文变长输出质量就急剧下降,而且Claude的回答都过于精简,很喜欢进行分点总结,在project的instruction写了也还会这样,基本上一句话一个点,感觉是后训练的时候没训好,或者出于成本考虑在system prompt里面加了输出的要求。比如下面我分别要求Claude和Gemini对于一篇存内计算的综述进行详细的介绍。
Gemini的回答还没有截完,很明显感受到Claude有些敷衍。
现在写比较长的中英论文基本都是用的Gemini,Claude在写一些比较短的片段或者需要针对性润色时效果还可以。
翻译
有的时候需要快速浏览英文论文,此时要借助大模型进行大量文本的翻译,这个场景主要看术语翻译的准确性和前后连贯性。
翻译这部分是Google的老本行了,在Gemini-Exp-1206还没出的时候就在使用Gemini-1.5-Pro作为翻译模型,效果比GPT-4o和Claude都要好,机翻味比较少,出了Gemini-Exp-1206模型后更进一步。平时翻译我主要调API,美中不足的是首个token返回时间偏长,而且输出速率也比较低。如果只是进行一些简单翻译的话,国内李开复老师的零一万物Yi-Lightning模型效果很好,首token返回时间,速率体验和翻译效果都很不错,DeepSeek-V3机翻味有点重了。
移动端
这点目前GPT-4o的综合效果还是最好的,不论是识图还是视频/语音通话,这些功能对模型的智力要求并不是很高,主要看APP的体验。Claude估计短期内不会出这类模型,Gemini在AI Studio中已经能实现上述功能了,上线APP端估计是时间问题。这里还要吐槽Gemini的移动APP端,功能太简陋了,甚至连网页端功能都没完全上线,比如deep research就只能在网页端上用,要等视频通话上线估计还要一段距离。
总结
本文基于作者的实际体验,对Gemini、Claude 和 GPT 系列的多个模型进行了深度对比。其中,Gemini-Exp-1206 凭借其超大上下文窗口、详尽的输出、原生支持多模态和免费使用的优势,我认为是当前综合体验最佳的模型。
大模型战争已经进入下半场,各家已经开始意识到营收的重要性了。OpenAI推出了两百美元月费的会员,而且对于模型使用异常的账号会降智处理。Anthropic一开始就把重心放在API端而不是网页端,对网页端的免费和会员用户都添加了极强的使用限制(我感觉花20刀买API的效果肯定比网页端更好,已经开始考虑退费了),封号也是最严格的。Claude-3.5-Sonnet在代码能力上的突出表现也让它在OpenRouter上的调用量稳居榜首,其市场认可度还是很高的。Google虽然一开始落后于其它两家,在年初表现惨淡,但它是这三家算力和资金最雄厚的,没有其它两家那么强的营收和成本压力,(其它两家不可能提供这么高的模型免费使用额度和API赠送额度)。此外,Google 旗下的 DeepMind 团队拥有深厚的技术储备。结合 Google 的算力优势和 DeepMind 的技术实力,2024 年底 Gemini 模型的显著进步属于意料之外,情理之中。年初Google应该就会正式发布Gemini2.0模型,期待它们的表现。
再说说国内,主要想谈豆包和DeepSeek两个模型,感觉这两者分别可以对应Gemini和Claude。豆包目前类似24年初Gemini的状态,虽然有庞大的算力和人才储备,但是模型能力只能说中规中矩。不过,考虑到字节强大的技术实力和资源整合能力,预计2025 年,豆包的模型性能有望实现显著提升,达到类似 Gemini 在 2024 年取得的突破性进展。目前,豆包正通过大规模的投流迅速扩张用户群体,这与其商业模式类似(To C)的竞争对手——月之暗面的 Kimi 模型形成了正面交锋。然而,月之暗面近期负面新闻缠身,加之其尚未建立起稳定的盈利模式,主要依靠融资来维持运营和市场推广,这种模式难以长期持续。尽管月之暗面在 2024 年初和年中通过大量广告投放获得了不少关注和用户,但随着资金逐渐消耗,其未来的发展充满了不确定性。相比之下,豆包背靠字节跳动,依托其核心业务的强劲造血能力,无需担忧资金链断裂的风险。因此,预测月之暗面在 2025 年可能会面临较大的经营压力和动荡。顺带一提,我觉得国内的To C大模型不算很好的商业模式,主要是缺乏变现方式,愿意付费的用户已经被OpenAI,Anthropic(号封成这样还是有不少人充钱)占领,除非模型能力接近并且月费大幅下降(例如40人民币每月),短期内还没找到很好的解法,字节这种财大气粗的不会在意这些营收,主要是方便之后把豆包当成流量入口。除了月之暗面之外,国内其他缺乏稳定营收能力的大模型厂商在 2025 年的处境恐怕也不容乐观。例如,零一万物近期就被曝出其预训练团队将并入阿里巴巴的消息,这或许预示着行业洗牌的开始。
Deepseek 作为国内开源模型领域的佼佼者,早在 2023 年底就凭借 Deepseek-Coder 和 Deepseek-Math 等专用模型在开源社区崭露头角,与 Qwen团队并称为国内开源模型的“双雄”。近期发布的 Deepseek-V3 模型,以极低的训练成本实现了媲美行业领先水平的性能,进一步提升了 Deepseek 的知名度和影响力,这一突破性的进展,类似于 Anthropic 在年中发布 Claude 3.5-Sonnet 时引发的业界关注。而且Deepseek 与 Anthropic 的商业模式颇为相似,两者的主要营收来源均是 API 调用服务。根据知乎上相关从业人员透露的信息,虽然价格已经低至1元/1M token,Deepseek API 的毛利率仍高达 50%。值得一提的是,Deepseek 和Anthropic都很早就开始在 API 端应用了缓存命中技术。这项技术能够显著提升 API 的响应速度,并大幅降低API的费用。巧合的是,Deepseek 与 Anthropic 几乎是前后脚上线,Deepseek是24年8月2日,Anthropic是24年8月15日。
随着大模型研发成本的不断攀升,缺乏资金支持和商业化落地能力的公司将逐渐被边缘化,而拥有核心技术、稳定营收和清晰商业模式的头部企业将进一步巩固其市场地位。目前国内个人比较看好的是豆包,Deepseek和Qwen这三家,值得注意的是,它们均具备自建算力集群的显著优势,这为它们在大模型领域的持续创新和竞争提供了坚实的基础。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai002/post/20251015/%E5%BE%A1%E4%B8%89%E5%AE%B6%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%A8%AA%E8%AF%84Claude-Gemini-GPT%E5%92%8C%E4%B8%80%E4%BA%9B%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8E%82%E5%AE%B6%E7%8E%B0%E7%8A%B6%E7%9A%84%E6%83%B3%E6%B3%95/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com