[程序员] glm5.1, kimi2.6, minimax2.7, mimo v2.5, deepseek v4,编程能力上的排名如何?
先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
能力 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第11页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 405 篇相关文章 · 第 11 / 21 页
先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
新人加入L站,分享个前端开发小技巧: 鉴于gpt短期的前端能力相较于gemini等llm相对不足,在当前可以提供一个曲线救国的思路: 利用google当前的较高的stitch调用次数(无论是否pro账号),可以白嫖高质量的特调gemini的前端开发能力,配合目前高质量的aweso
快速,稳的,清晰的能力边界 不会动不动出现幻觉 结构化输出稳固 全面强大的多模态能力 agent开发中,处理快速任务永恒的第一选择 sota模型一直在变,flash系列永远是我的白月光 15 个帖子 - 13 位参与者 阅读完整话题
先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
它前端自主发挥能力不太行,但是抄作业能抄明白,它真的明白你要抄什么,比codex强很多!把原型给codex抄都抄不明白!!前端DS后端GPT稳了! 5 个帖子 - 4 位参与者 阅读完整话题
现在大模型跑分有可能是被注水的,也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜,也有各种野榜或者是那种商业平台刷榜花钱定制冠军,让人难以分辨,有没有公认比较公正无商业化的测评平台 4 个帖子 - 4 位参与者 阅读完整话题
以前的破限提示词用在 V4 上竟然不起作用了 3 个帖子 - 3 位参与者 阅读完整话题
豆包对于这个AI图片的辨认能力看上去能力一般啊。 但是,真的是这样吗? 第二关来袭 (点击了解更多详细信息) 其实这个图是gpt-image2生成的,各位佬友有没有发现呢? 现在gpt-image2生图的能力已经可以做到让大部分人第一眼发现不出端倪了。不过他们最近好像加强了第三方
大龄硕士一枚,代码能力尚可,但没成果(之前在工业届做码农),最近了解到貌似工程博士在扩招,但是要带资进组,懂得佬来说说,有没有穷人读博的建议 2 个帖子 - 2 位参与者 阅读完整话题
国内其他大模型几乎没有做得对的,特别第二题,gpt用上代码解释器也得做非常久 (k2.6能对第一题,但明显背出来的,一上来就在验证正确答案) 2 个帖子 - 2 位参与者 阅读完整话题
我回答的是B,然后他说是D. 上下文只有15%. 1 个帖子 - 1 位参与者 阅读完整话题
公众号上看到有博主说 ChatGPT pro 模型的编程能力非常🐂🍺,很多 codex 开 xhigh 解决不了的问题,用 pro 能解决.我心想着测试一下,给了 ChatGPT 一个网站的模板代码,让他基于模板代码和设计稿完成一个网站的搭建. 坑次坑次干了 30 分钟,给我了一
叠甲: 企业级RAG开发初学者, 还是有很多我不太明白的地方, 不吝赐教! 这两天高强度刷L站发现大家对于DS长上下文能力的赞誉,我现在对我当前在做的企业级RAG产生了巨大的怀疑… 当前我的RAG大量是基于适配短上下文而建立的,写了超级多的分段逻辑/向量化流程等,那现在我怀疑,如
太牛了好吧,牛逼 Windows PowerShell 版权所有(C) Microsoft Corporation。保留所有权利。 安装最新的 PowerShell,了解新功能和改进!https://aka.ms/PSWindows PS C:\Users\25608\Deskt
感觉 gpt5.5 比 5.4 前端审美、代码重构能力强了不少啊, 处理前端屎山的能力也强了,项目真实场景使用后的个人感受,不是用那些测试 case. 1 个帖子 - 1 位参与者 阅读完整话题
放学回来听说dsv4出来了还听说特别厉害兴高采烈地打开,随便抛了几道题看看,然而做题时间动辄10分钟以上(怎么比v3.2还慢了呀 ),做出来的方法也很丑陋,同样的题G3.1pro能在2min的时间做全对并且能讲得很明白(这点是最需要的),v3.2也能在10分钟内做全对,这是怎么回
v4的中文表达能力个人觉得确实强了很多。之前我一直用kimi辅助完成中文写作和润色,现在我觉得v4的写作比k2.6要强。 v4的1M上下文是真1M啊,太舒服了。我没测试那么多但是两三百K上下文的时候也很强很舒服。 我一开始是接在claude code里用的(官方最新版),但是后来
佬友们有没有什么“闪电般”快速的模型推荐,想做智能需求路由模型,所以意图理解能力要至少能用 9 个帖子 - 6 位参与者 阅读完整话题
在官网对话,还是V3,没有多模态的能力 4 个帖子 - 4 位参与者 阅读完整话题