对目前使用过的AI模型做个回顾😴

编辑部 2026-06-03T04:57:18.417451 1559 阅读综合

如题，本文是我回顾过去一年对自己使用过的AI模型进行的一个简要回顾，欢迎大家阅读探讨。 GPT 5.x GPT系列堪称是我的启蒙系列了，最早使用国外模型就是它。最早注册免费号的时候感觉还不错，当时并没有重度使用，就偶尔上传点图片，偶尔触发限额，后来越来越频繁直到三句话就限额，我才冒出了上Plus的想...

如题，本文是我回顾过去一年对自己使用过的AI模型进行的一个简要回顾，欢迎大家阅读探讨。

GPT 5.x
GPT系列堪称是我的启蒙系列了，最早使用国外模型就是它。最早注册免费号的时候感觉还不错，当时并没有重度使用，就偶尔上传点图片，偶尔触发限额，后来越来越频繁直到三句话就限额，我才冒出了上Plus的想法，可惜当时没有购买渠道，于是作罢。后来接触了中转才继续使用GPT系列的，再到现在基本上就是找首月免费或者其他渠道开Plus了。
最初体验不错，或许是因为我是萌新，亦或是因为当时还是GPT-5系列刚出，体感还不错，之后我开始使用中转站的时期，也还是以GPT为主力（依稀记得当时带着电脑去管科楼复习我的力学，就是用的中转站的GPT一问一答），到12月，1月我就开始有点不对的感觉了，回答问题开始人机化，频繁出现列表式的结构，在之后接触了Gemini，GPT就开始忽略了。
现在，主力是Claude和各类agent/IDE，GPT已经基本被我抛在脑后，虽然有时候听说GPT数理逻辑推理能力强，Pro模型可以连续思考几十分钟甚至以小时为单位，我也没有再返回GPT，甚至在Perplexity里面还是会避开GPT的模型——因为回复实在是人机，我都有种过敏的反应了。

Gemini 3.x
Gemini是我在1月到2月开始接触的模型，当时加入了谷歌家庭组，就开始大量使用Gemini，这是一个完全崭新的领域——Gemini以多模态的能力著称，有很多独特的功能（如后来的创建音乐，生成图片，以及canvas模式等等），我还花了很多时间探索谷歌的各种子产品，如NoteBookLM，生成音乐等等，2月到3月算是我和谷歌的一个“蜜月期”，当时很喜欢Gemini，平时用用Flash，偶尔上Thinking回答数理问题，再不行才Pro，感觉用起来得心应手。直到后来频繁开始“降智”，发现连很多简单问题都会出错，而且开始变得奉承，我才转入Claude。
现在，Gemini前段时间刚刚发布了3.5Flash的更新，速度变快了但依旧没什么长进，我除了偶尔需要前端处理以外，基本上不怎么用Gemini了，有点可惜，希望六月的3.5Pro能让Gemini再次发力吧。

Claude Sonnet 4.6
应该是Claude系列我最最常用的模型，一来满足我对Claude的几乎所有需要：理性客观的分析，有独立看法，遇到不会的知识不会乱编而是自己知道去联网搜索，二来价格额度消耗算挺不错，我的Pro还从来没有出现额度限制。
Claude系列我一直很喜欢，语言风格克制，有时候真的就说一句话，不像一些AI没事就输出上百行无意义分点（特指GPT）。同时真的给我一种是真人的感觉，有自己的思考模式，客观分析，可以指出我的一些问题，我不止一次和它探讨一些学习，生活态度，一些发展的看法，感觉很有品味。加上coding能力又强，算是我最喜欢的模型了，很多时候我上来就看有没有Claude系列模型使用（比如Perpelxity，Notion和Kiro）。我经常会听取他的看法和理解，是我现在的主力模型，也是最愿意为之全款付费的模型。

Claude Opus 4.6
平时用的不多，感觉消耗额度有点大了。一个印象就是Opus可以一次性输出一段内容，连着说一段话。
Opus4.6至今仍是口碑最好的Opus模型，比后来的两代口碑还好。我在ClaudeCode里短暂用过一两回，感觉确实厉害些，提的要求sonnet要轮换几次Opus一两次就搞定了。
一直到最近的Kiro时期几乎无限制使用，我才锚定了Opus4.6开始蹬，感觉确实能力强，只需要很少的几次交互就可以满足我的要求，不过有时还是略微有一点不足，当然可能是我太过于随意使用，没有注重上下文等等。
总体而言印象是很好的，个人认为应该是目前coding最出色的模型，可惜额度消耗太大除非不限制，不然我还是会以sonnet为主。

Claude Opus 4.7 & 4.8
这两用的少，算是Opus口碑下滑的两代了，虽然coding能力在benchmark上是有提升，但口碑不如Opus4.6，说话风格有明显不同，经常以“我”自称，这一点和Codex类似，不太理想。即使是在Kiro时期，我用的也不多。

Grok
Grok系列用的一般，偶尔需要搜索的时候会试试，但我还是更相信Perplexity。
挺灵巧的，没什么限制，Expert模型给出的结果确实结果稍微好一点，但用的也不太多，Grok4.3没什么显著提升，一般般吧。
说来好笑，我对Grok的印象是大物实验——因为手机上没怎么登录AI的会员，只有Grok当时玩玩所以登录了，大物实验的时候手机上没一个好用的，就用Grok凑合分析一下，感觉还不错，能勉强指导我处理数据。
最近上新的Grok Build我终于登录上了，我可能主要还是看看Composer2.5吧，Grok可能coding比Gemini还差些，毕竟不是专攻这个方向的。

Composer 2.5
新出没多久的模型，源自Kimi，前段时间在Grok Build上面上架了，等下去品鉴一下。
简单了解了一下，说是一个基于Kimi2.5进行了RL微调的模型，可以理解为一个coding优化过的kimi2.5，基于我对kimi印象不错，估计这个体验应该还行。

Kimi2.6
Kimi是我在国内印象最好的模型了，会自己调用工具分析问题，有一点Claude的味道，遇到不知道的信息会主动联网搜索。
一个深刻的印象是当时做大物实验，手机上没几个AI，元宝，千问，Deepseek处理一份简单的数据都失败了，只有Kimi知道去写python代码计算并绘制曲线给我拟合。
印象不错，是我认为国内最好的模型了，可惜免费版容易限流，用不太了，而要付费又略差于国外几个模型。

Qwen3.x
千问系列用的不太多，千问手机端现在是主力（手机端没有像电脑这么多AI，毕竟学习还是以电脑为主），说是比Deepseek和元宝好一点，但没看出什么优秀之处，Qwen的最新几款说是coding能力不赖，但也没看到什么显著优势的。
我感觉Qwen系列主要专攻开源，似乎提到开源大家都会想到qwen的各种系列——从8B模型到数百B的模型都有，覆盖面广，国内外开源口碑都很好。

Deepseek v4
早期我使用的元宝，背后就是Deepseek v3系列。deepseek是中国第一个出圈的模型，当时第一个和GPT对峙的。比起一个商业公司，我感觉Deepseek更像是一个大型有投资的实验室，他专攻各种大参数模型，这方面走的路线和Qwen完全不同，但又发明了如MLA等架构，在数学逻辑推理这一块分数极高，在数学方面的得分是开源模型里面最高的，同时又追求用极有限的算力做出超额收益，做到同等效果下最低成本，性价比一块做到了最好，科大周围很多同学（包括我寒假简单玩玩）试手都是用的Deepseek API去研究，去接入各种简单的AI模型，包括QQ群里的猫娘。

我对AI的要求更多是偏向于“你可以不会，但要诚实说明，要拟人风格，有客观分析问题能力，同时智商也要在线，能跟我探讨学习问题，给我一些观点的分析与建议”，因此我不太喜欢GPT系列，目前主力用的是Claude。上文仅是我个人对这些模型的看法，或许和佬友看法，口味并不一致，欢迎佬友分享自己对这些模型的看法。

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

目前使用 AI 模型做个帖子一个参与者

对目前使用过的AI模型做个回顾😴

[分享创造] 我给 AI 做了个「第二大脑」—— Claude、Cursor、Windsurf 共享记忆，开源免费

openai订阅渠道又再次惨遭举报

相关推荐