轻度使用了 Kimi k2.6,环境是 opencode go,推理过程给人一种极其难受的感觉
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
nc - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第24页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 862 篇相关文章 · 第 24 / 44 页
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
提示词统一,并且都是用claude code进行生成 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
使用deepseek-v4 pro的总结,配合gpt-image-2的出图 1 个帖子 - 1 位参与者 阅读完整话题
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
用DeepSeek V4测试了一下代码能力,让它给我的一个后端项目加个RSS功能,实测下来感觉还不错,能很好的理解项目架构(也有OpenCode的功劳),做出的改动符合当前项目架构,没有出现写屎山或者自己造轮子情况,不过没有自行生成单元测试,gpt的话大部分时间会自动生成单元测试
Epoch AI Claude skews high-income; Meta AI skews low-income Household income of weekly AI users ranges from 80% earning $100K+ for Claude to
先放私有bench GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的 或多或少都存在一些缺陷,整体质量不如5.4。 据传参数量也变大了,是oai目
切换模型前,是我和opus的对话,大概有80k左右,大概是我让opus帮我改个东西,然后看到deepseek上线就赶紧切了试试… 结果就是完全无视我当前指令,认准一个地方乱冲… 那就…下次见吧 7 个帖子 - 7 位参与者 阅读完整话题
依旧先放私有bench 这个模型吧,他的思考效率极低,,经常思考个600-1000秒 但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了 写出来的很多东西只能说想法很好,但能力不足 在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多, 不像某
在 Kimi-K2.6技术报告 中和 DeepSeek-v4技术报告 中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗? Kimi-K2.6技术报告截图
TechCrunch – 23 Apr 26 X is shutting down Communities because of low usage and lots of spam |... X Communities are no more. Only a fraction
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
推理不到点子上,整个推理过程就是无限的否定自己,推理能力堪比 qwen 的第一个推理模型 qwq-32b 。不能做到类似 glm5.1 那种言之有物,人看了会觉得真的在思考的效果。 kimi k2.6 还出现了一个非常低级的错误,我让他参考一个 kt 工程,我给了工程的文件夹路径
这是DeepSeek V4 Pro的 我要js,给了我一个html (function() { // --- 创建全屏 Canvas --- const canvas = document.createElement('canvas'); const ctx
来自知乎toyama佬 网站: LLM Benchmark Dashboard 附:其他未测完的国模 1 个帖子 - 1 位参与者 阅读完整话题
之前openrouter上elephant的1t版本: inclusionai/ling-2.6-1t:free 1 个帖子 - 1 位参与者 阅读完整话题