Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技

GPT 5.5测评：高效的推理和搞笑的能力

先放私有bench GPT 5.5涨价了一倍，根据官方说法推理效率更高了。确实如此，5.4时期需要700甚至1000+秒思考的题目，现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的或多或少都存在一些缺陷，整体质量不如5.4。据传参数量也变大了，是oai目

相关专题

tech linux.do 2026-04-24 12:52:49+08:00

DeepSeek V4 Pro测评：抱歉没能让GLM大人尽兴

依旧先放私有bench 这个模型吧，他的思考效率极低，，经常思考个600-1000秒但是呢，人家GPT思考这么久真能把活干好，v4p就只能达到中游水平了写出来的很多东西只能说想法很好，但能力不足在审美这一块呢，不像任何一个模型，基本都有自己的理解，说明代码蒸的不多，不像某

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-24 12:40:17+08:00

GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

在 Kimi-K2.6技术报告中和 DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？ Kimi-K2.6技术报告截图

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-24 12:09:04+08:00

DeepseekV4Pro的私有Coding测试集评测结果

来自知乎toyama佬网站： LLM Benchmark Dashboard 附：其他未测完的国模 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-24 11:52:40+08:00

从 benchmark 上来看，DeepSeek V4 怎么样？

和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者阅读完整话题

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-24 11:06:33+08:00

deepseek v4模型能力bench

来源未知，参考一下。 2 个帖子 - 2 位参与者阅读完整话题

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-24 11:02:03+08:00

Mimo v2.5 Pro测评：进步不错，问题也大

放私有bench mimo 2.0 pro测评米÷来袭，学习先进的GLM工艺，Mimo v2 Pro正式版依旧大砍开发调优 [image] 比较匿名时期的Hunter-alpha能力差了一大截，代码基本不可用，全部都要返工修小bug。从小巧思还能看出hunter的影子，但是能

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-23 10:59:01+08:00

来个DuckBenchmark

这个是纯视觉的极其困难的测试：使用如下图片询问AI：告诉我这是什么品种的鸭子目前我测试下来全军覆没，唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro，今年的3.1Pro也寄了错误答案：这是一只（野生）绿头鸭半对答案：这是一只家养绿头鸭，辨识方式：体态较为

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-22 23:53:27+08:00

kimi k2.6 benchmark分析（换成排名）

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。生成表格的代码是AI写的。。想了想还是截图吧官方原始的benchmark： kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-21 13:47:23+08:00

minimax highspeed实际速率

写了个benchmark想看看实际的速率区别。测试-1 （点击了解更多详细信息） bench代码（点击了解更多详细信息） config.json （点击了解更多详细信息） 2.7-highspeed在代码生成类别速度比文字快一点，而且如果涉及到中文tps就会变低。在设定max

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-17 22:42:47+08:00

有没有佬友想要共建一个agent项目呀

如题，很想寻找一个佬友一起共建一个agent，包括benchmark建立等等，个人还没有什么想法，想先找想要一起合作的佬友！个人的一些介绍：获得过国家奖学金，华为杯国家级二等奖，蓝桥杯国家级三等奖。此前有一段多模态大模型方向和安全智能体的实习经历，目前同时有两篇 A 类会议论文

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-17 20:53:36+08:00

Deepseek x上传出来的，各位佬友分析下

帖子内容：疑似 DeepSeek V4 技术报告的 benchmark泄露！图中的“DeepSeek-V4 技术报告”基准测试（Benchmark）数据，为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体（Agent）四大维度的成

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech linux.do 2026-04-17 20:18:19+08:00

百度搭子DuMate登顶PinchBench

36氪获悉，5月8日凌晨，百度搭子DuMate登顶智能体评测基准PinchBench榜首，并在前5位中占据3席。据了解，在另外一项DeepResearch深度研究榜单中，DuMate同样位列第一。

相关专题

Platform Document Careers Database 专题内容 Alert Price Login Blog Support Fashion Partner SEO Rating 专题内容 Landing Whitepaper Share Prospect Music 专题内容 Calendar Recipe Travel 专题内容 Efficiency Shopping Hosting Upload 专题内容视频 Cheap Extension 专题内容 Recipe Feedback 专题内容 Traffic Brand Download 专题内容 Experience Alliance Travel 专题内容 Data Site Vendor Team API URL Technology 专题内容 File Metric 专题内容 Partner Event 影视专题内容 Notification Review Discount Communication Wellness Email 专题内容 Development Shopping App 专题内容视频 Link 游戏专题内容 Design Tool Coupon Satisfaction Keyword 专题内容 Webinar Forum 专题内容 Tool Business Reminder Presentation Vacation Lead Photo 专题内容 Review 专题内容 Image Conversion Creative Cheap Network Supplier Label 专题内容

tech 36氪

Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技 | TCTI.cn

相关标签