对目前使用过的AI模型做个回顾😴

如题,本文是我回顾过去一年对自己使用过的AI模型进行的一个简要回顾,欢迎大家阅读探讨。 GPT 5.x GPT系列堪称是我的启蒙系列了,最早使用国外模型就是它。最早注册免费号的时候感觉还不错,当时并没有重度使用,就偶尔上传点图片,偶尔触发限额,后来越来越频繁直到三句话就限额,我才冒出了上Plus的想...
对目前使用过的AI模型做个回顾😴
对目前使用过的AI模型做个回顾😴

如题,本文是我回顾过去一年对自己使用过的AI模型进行的一个简要回顾,欢迎大家阅读探讨。

GPT 5.x
GPT系列堪称是我的启蒙系列了,最早使用国外模型就是它。最早注册免费号的时候感觉还不错,当时并没有重度使用,就偶尔上传点图片,偶尔触发限额,后来越来越频繁直到三句话就限额,我才冒出了上Plus的想法,可惜当时没有购买渠道,于是作罢。后来接触了中转才继续使用GPT系列的,再到现在基本上就是找首月免费或者其他渠道开Plus了。
最初体验不错,或许是因为我是萌新,亦或是因为当时还是GPT-5系列刚出,体感还不错,之后我开始使用中转站的时期,也还是以GPT为主力(依稀记得当时带着电脑去管科楼复习我的力学,就是用的中转站的GPT一问一答),到12月,1月我就开始有点不对的感觉了,回答问题开始人机化,频繁出现列表式的结构,在之后接触了Gemini,GPT就开始忽略了。
现在,主力是Claude和各类agent/IDE,GPT已经基本被我抛在脑后,虽然有时候听说GPT数理逻辑推理能力强,Pro模型可以连续思考几十分钟甚至以小时为单位,我也没有再返回GPT,甚至在Perplexity里面还是会避开GPT的模型——因为回复实在是人机,我都有种过敏的反应了。

Gemini 3.x
Gemini是我在1月到2月开始接触的模型,当时加入了谷歌家庭组,就开始大量使用Gemini,这是一个完全崭新的领域——Gemini以多模态的能力著称,有很多独特的功能(如后来的创建音乐,生成图片,以及canvas模式等等),我还花了很多时间探索谷歌的各种子产品,如NoteBookLM,生成音乐等等,2月到3月算是我和谷歌的一个“蜜月期”,当时很喜欢Gemini,平时用用Flash,偶尔上Thinking回答数理问题,再不行才Pro,感觉用起来得心应手。直到后来频繁开始“降智”,发现连很多简单问题都会出错,而且开始变得奉承,我才转入Claude。
现在,Gemini前段时间刚刚发布了3.5Flash的更新,速度变快了但依旧没什么长进,我除了偶尔需要前端处理以外,基本上不怎么用Gemini了,有点可惜,希望六月的3.5Pro能让Gemini再次发力吧。

Claude Sonnet 4.6
应该是Claude系列我最最常用的模型,一来满足我对Claude的几乎所有需要:理性客观的分析,有独立看法,遇到不会的知识不会乱编而是自己知道去联网搜索,二来价格额度消耗算挺不错,我的Pro还从来没有出现额度限制。
Claude系列我一直很喜欢,语言风格克制,有时候真的就说一句话,不像一些AI没事就输出上百行无意义分点(特指GPT)。同时真的给我一种是真人的感觉,有自己的思考模式,客观分析,可以指出我的一些问题,我不止一次和它探讨一些学习,生活态度,一些发展的看法,感觉很有品味。加上coding能力又强,算是我最喜欢的模型了,很多时候我上来就看有没有Claude系列模型使用(比如Perpelxity,Notion和Kiro)。我经常会听取他的看法和理解,是我现在的主力模型,也是最愿意为之全款付费的模型。

Claude Opus 4.6
平时用的不多,感觉消耗额度有点大了。一个印象就是Opus可以一次性输出一段内容,连着说一段话。
Opus4.6至今仍是口碑最好的Opus模型,比后来的两代口碑还好。我在ClaudeCode里短暂用过一两回,感觉确实厉害些,提的要求sonnet要轮换几次Opus一两次就搞定了。
一直到最近的Kiro时期几乎无限制使用,我才锚定了Opus4.6开始蹬,感觉确实能力强,只需要很少的几次交互就可以满足我的要求,不过有时还是略微有一点不足,当然可能是我太过于随意使用,没有注重上下文等等。
总体而言印象是很好的,个人认为应该是目前coding最出色的模型,可惜额度消耗太大除非不限制,不然我还是会以sonnet为主。

Claude Opus 4.7 & 4.8
这两用的少,算是Opus口碑下滑的两代了,虽然coding能力在benchmark上是有提升,但口碑不如Opus4.6,说话风格有明显不同,经常以“我”自称,这一点和Codex类似,不太理想。即使是在Kiro时期,我用的也不多。

Grok
Grok系列用的一般,偶尔需要搜索的时候会试试,但我还是更相信Perplexity。
挺灵巧的,没什么限制,Expert模型给出的结果确实结果稍微好一点,但用的也不太多,Grok4.3没什么显著提升,一般般吧。
说来好笑,我对Grok的印象是大物实验——因为手机上没怎么登录AI的会员,只有Grok当时玩玩所以登录了,大物实验的时候手机上没一个好用的,就用Grok凑合分析一下,感觉还不错,能勉强指导我处理数据。
最近上新的Grok Build我终于登录上了,我可能主要还是看看Composer2.5吧,Grok可能coding比Gemini还差些,毕竟不是专攻这个方向的。

Composer 2.5
新出没多久的模型,源自Kimi,前段时间在Grok Build上面上架了,等下去品鉴一下。
简单了解了一下,说是一个基于Kimi2.5进行了RL微调的模型,可以理解为一个coding优化过的kimi2.5,基于我对kimi印象不错,估计这个体验应该还行。

Kimi2.6
Kimi是我在国内印象最好的模型了,会自己调用工具分析问题,有一点Claude的味道,遇到不知道的信息会主动联网搜索。
一个深刻的印象是当时做大物实验,手机上没几个AI,元宝,千问,Deepseek处理一份简单的数据都失败了,只有Kimi知道去写python代码计算并绘制曲线给我拟合。
印象不错,是我认为国内最好的模型了,可惜免费版容易限流,用不太了,而要付费又略差于国外几个模型。

Qwen3.x
千问系列用的不太多,千问手机端现在是主力(手机端没有像电脑这么多AI,毕竟学习还是以电脑为主),说是比Deepseek和元宝好一点,但没看出什么优秀之处,Qwen的最新几款说是coding能力不赖,但也没看到什么显著优势的。
我感觉Qwen系列主要专攻开源,似乎提到开源大家都会想到qwen的各种系列——从8B模型到数百B的模型都有,覆盖面广,国内外开源口碑都很好。

Deepseek v4
早期我使用的元宝,背后就是Deepseek v3系列。deepseek是中国第一个出圈的模型,当时第一个和GPT对峙的。比起一个商业公司,我感觉Deepseek更像是一个大型有投资的实验室,他专攻各种大参数模型,这方面走的路线和Qwen完全不同,但又发明了如MLA等架构,在数学逻辑推理这一块分数极高,在数学方面的得分是开源模型里面最高的,同时又追求用极有限的算力做出超额收益,做到同等效果下最低成本,性价比一块做到了最好,科大周围很多同学(包括我寒假简单玩玩)试手都是用的Deepseek API去研究,去接入各种简单的AI模型,包括QQ群里的猫娘。

我对AI的要求更多是偏向于“你可以不会,但要诚实说明,要拟人风格,有客观分析问题能力,同时智商也要在线,能跟我探讨学习问题,给我一些观点的分析与建议”,因此我不太喜欢GPT系列,目前主力用的是Claude。上文仅是我个人对这些模型的看法,或许和佬友看法,口味并不一致,欢迎佬友分享自己对这些模型的看法。

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文