排名 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn

排名 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 110 篇相关文章 · 第 5 / 6 页

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标

tech plink.anyfeeder.com 2026-04-25 14:05:13+08:00

artificial analysis 测试 v4 flash max幻觉率排名倒数第一

等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题

tech linux.do 2026-04-24 15:56:10+08:00

【第二期趣味挑战】周五划水摸鱼?来试试纯 AI 生成 CTF 小挑战,排名靠前还有现金奖励!

依旧是一句话让AI出题,本次出题模型为GPT-5.4 比赛奖池:高达 20元 现金奖励 奖品规则: 首位解答 额外独享10元现金奖励(手动发放) 成功解答题目随机瓜分10元红包,仅有10个名额(自行领取) 补充协议: 答题成功排序以网站排名为准,提交正确的口令后会自动记录 本次红

tech linux.do 2026-04-24 14:12:13+08:00

DeepSeek v4 在 Arena Leaderboard 排名出来了

Text Arena 目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。 Code Arena 天气卡片实测: DeepSeek v4 pro 天气卡片测试来了,结果有点意外 开发调优 [PixPin2026-04-2411

tech linux.do 2026-04-24 12:44:03+08:00

最近两大巨头的模型性能,在各位佬友那是怎么个排名

不考虑价格的话,gpt默认xhigh,我目前的感受是 GPT5.5>OPUS4.6>OPUS4.7>GPT5.4 GPT5.5的速度、性能相较于5.4都有了明显提升,就是codex里5.5的上下文注意力不如5.4。 不知道5.5pro用于coding是个什么水平

tech linux.do 2026-04-24 07:26:11+08:00

Kimi k2.6 在arena.ai coding排名第六,于glm-5.1水平相当

真没必要抢glm-5.1了 5 个帖子 - 5 位参与者 阅读完整话题

tech linux.do 2026-04-23 13:50:51+08:00

国内原生AI应用的月活排名

AI探金 AI探金 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-22 21:25:07+08:00

【关于Claude各渠道智力排名】有人测评过或者有什么办法测试呢?

如题 各种渠道的opus确实体感很明显 请问有大佬测试过cursor、kiro、Antigravity、AWSQ、MAX等等不同渠道的Claude智力吗? 如果没有的话,有什么办法可以快速测试出来残血与满血MAX差异吗? 我打算用标准化的方式去测试各个渠道的能力vs性价比,在合适

tech linux.do 2026-04-22 10:31:33+08:00

[分享创造] 什么样的独立开发产品真的能赚到钱?

最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。

tech v2ex.com 2026-04-21 22:21:11+08:00

[分享创造] 什么样的独立开发产品真的能赚到钱?

最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。

tech v2ex.com 2026-04-21 22:21:11+08:00

[分享创造] 什么样的独立开发产品真的能赚到钱?

最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。

tech v2ex.com 2026-04-21 22:05:59+08:00

[分享创造] 什么样的独立开发产品真的能赚到钱?

最近在找一些新的产品方向,就顺手做了一个小实验:把 trustmrr 上 MRR 排名前 100 的独立开发产品抓下来,做了一点简单分析,看看有没有什么规律。 数据是用我自己做的浏览器插件 Scrapilot 抓的,直接把网页结构化成表格,然后丢给 ChatGPT 跑了一轮分析。

tech v2ex.com 2026-04-21 19:41:50+08:00

全球宽带价格调查:伊朗月均 2.61 美元居首,北美市场资费最高,中国排名第16月均花费14.3美元

全球宽带价格呈现显著的地域性分化,新兴市场凭借低廉的生活成本与高城市密度占据资费优势。Broadband Genie 针对 214 个国家和地区的调查显示,伊朗以 2.61 美元的月均资费成为全球宽带最便宜的国家,其价格优势主要受当地货币贬值驱动。相比之下,北美地区平均月费高达

tech linux.do 2026-04-21 14:46:11+08:00

kimi k2.6 benchmark分析(换成排名)

官方的benchmark很全面,但是有点看不清楚,我换成排名的方式感觉更清楚点。 生成表格的代码是AI写的。。想了想还是截图吧 官方原始的benchmark: kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K

tech linux.do 2026-04-21 13:47:23+08:00

给佬友分享一个AI降智查看网站

可以每天查看御三家等大模型的实时性能指标得分排名,最重要的看看哪些降智了 AI Stupid Level - Benchmark Tool AI Benchmark Tool - Best AI Models 2025 | Compare Claude vs GPT vs Gem

tech linux.do 2026-04-21 10:29:03+08:00

[推广] 香港排名第一数字银行 众安银行开户额外返现 300HKD !

tech v2ex.com 2026-04-21 07:15:01+08:00

[推广] 香港排名第一数字银行 众安银行开户额外返现 300HKD .

tech v2ex.com 2026-04-20 23:11:41+08:00

[推广] 香港排名第一数字银行 众安银行开户额外返现 300HKD !

tech v2ex.com 2026-04-20 21:08:02+08:00

[奇思妙想] 大家觉得搞个 agent 市场怎么样?

分享一个想法: 1 、开发一个 agent 市场,根据能力分类、性能排名,类似 github ; 2 、实现一个 agent 调用协议; 3 、每个人只需要管理一个主 agent ,由它负责管理整个 agent 群。

tech v2ex.com 2026-04-20 13:00:18+08:00

[推广] 香港排名第一数字银行 众安银行开户额外返 300HKD !

tech v2ex.com 2026-04-20 01:39:23+08:00