海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大
4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标
排名 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 110 篇相关文章 · 第 5 / 6 页
4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标
等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题
依旧是一句话让AI出题,本次出题模型为GPT-5.4 比赛奖池:高达 20元 现金奖励 奖品规则: 首位解答 额外独享10元现金奖励(手动发放) 成功解答题目随机瓜分10元红包,仅有10个名额(自行领取) 补充协议: 答题成功排序以网站排名为准,提交正确的口令后会自动记录 本次红
Text Arena 目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。 Code Arena 天气卡片实测: DeepSeek v4 pro 天气卡片测试来了,结果有点意外 开发调优 [PixPin2026-04-2411
不考虑价格的话,gpt默认xhigh,我目前的感受是 GPT5.5>OPUS4.6>OPUS4.7>GPT5.4 GPT5.5的速度、性能相较于5.4都有了明显提升,就是codex里5.5的上下文注意力不如5.4。 不知道5.5pro用于coding是个什么水平
真没必要抢glm-5.1了 5 个帖子 - 5 位参与者 阅读完整话题
AI探金 AI探金 2 个帖子 - 2 位参与者 阅读完整话题
如题 各种渠道的opus确实体感很明显 请问有大佬测试过cursor、kiro、Antigravity、AWSQ、MAX等等不同渠道的Claude智力吗? 如果没有的话,有什么办法可以快速测试出来残血与满血MAX差异吗? 我打算用标准化的方式去测试各个渠道的能力vs性价比,在合适
最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。
最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。
最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。
最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。
全球宽带价格呈现显著的地域性分化,新兴市场凭借低廉的生活成本与高城市密度占据资费优势。Broadband Genie 针对 214 个国家和地区的调查显示,伊朗以 2.61 美元的月均资费成为全球宽带最便宜的国家,其价格优势主要受当地货币贬值驱动。相比之下,北美地区平均月费高达
官方的benchmark很全面,但是有点看不清楚,我换成排名的方式感觉更清楚点。 生成表格的代码是AI写的。。想了想还是截图吧 官方原始的benchmark: kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K
可以每天查看御三家等大模型的实时性能指标得分排名,最重要的看看哪些降智了 AI Stupid Level - Benchmark Tool AI Benchmark Tool - Best AI Models 2025 | Compare Claude vs GPT vs Gem
分享一个想法: 1 、开发一个 agent 市场,根据能力分类、性能排名,类似 github ; 2 、实现一个 agent 调用协议; 3 、每个人只需要管理一个主 agent ,由它负责管理整个 agent 群。