不要迷信AI大模型榜单

叠个甲,本篇帖子并不是以说教的口吻宣导,只是个人感受分享。 最近国内外厂商争相推新,百家争鸣,然而也催生了一类又一类的评测榜单,建议各位佬友明确自我对大模型的需求,不要受榜单影响,我个人观察到因为一类又一类AI大模型的榜单出现,社区的拉踩现象也越来越严重,不局限于L站,L站的风气相对好一些,可见各位...
不要迷信AI大模型榜单
不要迷信AI大模型榜单

叠个甲,本篇帖子并不是以说教的口吻宣导,只是个人感受分享。

最近国内外厂商争相推新,百家争鸣,然而也催生了一类又一类的评测榜单,建议各位佬友明确自我对大模型的需求,不要受榜单影响,我个人观察到因为一类又一类AI大模型的榜单出现,社区的拉踩现象也越来越严重,不局限于L站,L站的风气相对好一些,可见各位佬友的理智还是在线的,一个工具而已,哪个更适合自己,自然就选择哪个,现在除了深度适配deepseek的以外,其它切大模型几乎是0成本,实在是没必要为大模型去浪费口舌。

比如有些榜单,拿几轮对话能解决问题来衡量智能程度的,我也尝试使用描述清晰的提示词给到deepseek-flash[high],也能做到一轮对话解决,这是不是等于直接打脸所有榜单?难道同样就能证明deepseek-flash[high]就可以比肩opus4.6\4.7\4.8、gpt-5.5这些了么,很明显不是的。

同样也说明了另一个点,即使不是顶尖的模型,只要适用得当,也可以比肩顶尖模型,能达到自己的需要,我现在编码的唯一选择也就只有flash(图他便宜),在不断在积累vide coding案例、harness案例之后,也能够很流畅完全日常各类工作,甚至是智能体的研发。

就我个人使用体验来说,运用好claude code的plan模式,其实啥模型都能完成我的工作,更多的是发现了模型的不足,再通过提示词进行弥补即可,而不是让大模型来弥补提示词的不足,那这成本太高了

15 个帖子 - 13 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文