GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同
在 Kimi-K2.6技术报告 中和 DeepSeek-v4技术报告 中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗? Kimi-K2.6技术报告截图
2.6 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第7页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 255 篇相关文章 · 第 7 / 13 页
在 Kimi-K2.6技术报告 中和 DeepSeek-v4技术报告 中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗? Kimi-K2.6技术报告截图
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
之前openrouter上elephant的1t版本: inclusionai/ling-2.6-1t:free 1 个帖子 - 1 位参与者 阅读完整话题
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
最近开发用kimi2.6 我发现这玩意跟精神分裂一样,思考时间长了很多 老是再等等! 这种自己否定自己的说法 但是用GLM思考过程又全是英文的 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 4 月 24 日消息,在今天上午的 2026 北京车展小米汽车发布会上,小米创办人、董事长兼 CEO 雷军宣布:截至 4 月 23 日,新一代 SU7 锁单超 6 万台,交付 2.6 万台。 据IT之家了解,2026 年 3 月,小米汽车交付量超过 20000 台。 此
1T 参数量也不小,可免费使用一周:Going away 2026 年 4 月 30 日 https://openrouter.ai/inclusionai/ling-2.6-1t:free 简单问了问,把自己版本号 2.6 说成总参数量,知识截止日期说成当前日期,这理解能力。。
此前在 OpenRouter 的神秘模型 “Elephant Alpha” 确认为 inclusionAI 研发的 Ling-2.6-flash,如今上线了 Ling-2.6-1T 正式版,参数量不小,目前可免费用。 openrouter.ai Ling-2.6-1T (free
deepseek你就继续陪太子读书吧,就算GPT出5.5,Claude出mythos,kimi出2.6,qwen出3.6,glm出5.1我也不在乎,我只爱你v4 9 个帖子 - 9 位参与者 阅读完整话题
7 个帖子 - 4 位参与者 阅读完整话题
如题,看到了站里富可敌国的想法 突发奇想 四张卡15刀每小时 不过冷启动也要不少时间 VS 6.25刀每小时 不过可以轻松scale up/down 温启动十几分钟 16 个帖子 - 12 位参与者 阅读完整话题
智谱 coding plan 背刺,首先排除 模型能力上 看好 kimi 2.6 和 MiMo-V2.5-Pro (按照 artificialanalaysis 的排名 ,其他排名不信) 找到一个 类似的贴 但是没有提到 小米 coding plan 所以有什么坑吗?类似于发几句
k2.6 最近深度体验了下,虽然说肯定不如 opus,但是体感上能达到 85% 左右,价格大概只有 opus 五分之一 最近听说官方算力告急,特别是白天挺难用的,去 Openrouter 看了下速度只能说非常感人,大部分都是 20-30/tps 我测了下我们这边的渠道,基本能稳定
开了火山方舟coding plan pro,试了一下GLM5.1,响应巨慢,基本用不了 用了kimi k2.6感觉还不错 2 个帖子 - 2 位参与者 阅读完整话题
真没必要抢glm-5.1了 5 个帖子 - 5 位参与者 阅读完整话题
GLM 抢不上,算了。。。。 想问一下用过的,或者目前正在用的佬,Kimi 白天会限速吗?有无周限额之类什么的吗? 顺便问一下如果每天 8 小时,断断续续都在编程,改 bug,写文档的情况下,哪个套餐更加合适? 20 个帖子 - 13 位参与者 阅读完整话题