artificial analysis 测试 v4 flash max幻觉率排名倒数第一
等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题
v4 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第31页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 1030 篇相关文章 · 第 31 / 52 页
等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题
我的结论:与其看个人水榜还不如看知名榜单SWE 为啥不能看个人水榜?答案如图 2 个帖子 - 2 位参与者 阅读完整话题
个人见解 不喜勿喷 v4 别的不说,世界知识这一点确实牛逼大了 这预训练真的下了难以想象的苦工或者说技术突破了… Claude和gpt其实也没做到接近gemini的世界知识 国内更是没有一家能碰瓷的 都在玩coding特化这条路,比如靠opus迭代 蒸馏的就发个版本的minima
用了一个 kimi 官网的 Agent 的示例 Prompt: 「 Meridian Architecture 」高端建筑设计事务所官网,展示项目作品、设计理念、团队、获奖、联系表单、留言簿。中英双语、极简主义建筑美学、深色系(黑/深灰)+ 金铜色点缀。区块:Hero (全屏摩天
佬友们新的deepseek应该都用上了吧,有没有酒馆党的佬科普一下,v4会不会活人感,逻辑能力强不强啊,如果不错的话打算复活一波自己用的酒馆了(被御三家的轻轻的拖住你,死了等操作搞得没兴趣了) 5 个帖子 - 5 位参与者 阅读完整话题
ps: 不诱于誉,不恐于诽,率道而行,端然正己。 心有所感,让gpt5.5代笔写了一篇文章。(不得不说5.5相比与5.4,说人话了很多) 8 个帖子 - 6 位参与者 阅读完整话题
ollama cloud 上线了 deepseek v4 flash pro 模型还没有上 5 个帖子 - 5 位参与者 阅读完整话题
前不久的一期访谈节目中,NVIDIA CEO黄仁勋表示如果DeepSeek新模型在华为平台上首发,那对美国来说这将是可怕的一天。黄仁勋表示,这意味着AI模型被优化为在中国AI硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。 此前也有报道称DeepSeek
我看小米mimo还不错,不过看到推荐和测试的比较少,然后deepseek-v4没多模态,glm抢不到 3 个帖子 - 3 位参与者 阅读完整话题
如图,只支持国产模型,glm和v4 pro是3倍计算 2 个帖子 - 2 位参与者 阅读完整话题
美国外交关系委员会(CFR)中国与新兴技术高级研究员 Chris McGuire(前白宫国安会、国防部成员)发文称 V4 未改变中美 AI 竞争格局。他引用 V4 报告原文指出,DeepSeek 自身承认推理能力「落后前沿模型约 3 到 6 个月」,对标的是半年前发布的 GPT-
github.com GitHub - victorchen96/deepseek_v4_rolepaly_instruct: 对于DeepSeek-V4角色扮演的特殊控制指令的说明 对于DeepSeek-V4角色扮演的特殊控制指令的说明 deepseek研究员陈德里开源了适配d
提示词: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘
用了一个 kimi 官网的 Agent 的示例 Prompt: 「 Meridian Architecture 」高端建筑设计事务所官网,展示项目作品、设计理念、团队、获奖、联系表单、留言簿。中英双语、极简主义建筑美学、深色系(黑/深灰)+ 金铜色点缀。区块:Hero (全屏摩天
(话题已被作者删除) 1 个帖子 - 1 位参与者 阅读完整话题
叠甲:这是本人第一次尝试横向评估模型能力,测试方式可能有明显的不严谨,仅作为分享,大家看个乐子即可 测试结果 github.com GitHub - YKDZ/v4-vs-5.4: AI 代码能力对比:DeepSeek V4 Pro vs ChatGPT 5.4 xhigh ——
从先前的帖子:DeepSeek专家模式真的专家吗 https://linux.do/t/topic/1923331?u=qxuan 继续讨论 DeepSeek V4 发布后,L站相关讨论挺热闹,刚好看到 qq1244 佬的公益站放出cdk了,遂让DeepSeek V4试试解密,结
Nao佬的Deepseek编程评测出来了,在使用时 一定一定一定要开Max 从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO 继续 结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,m