用 AI 整理笔记,国产模型和 Gemini 幻觉太严重,Claude 和 GPT选哪个?
最近在用 AI 整理自己积累的笔记,想让它帮我修正和优化一下笔记内容,然后查询官方文档指出笔记中有问题的知识点。 试了一圈下来发现几个问题: 幻觉太多 :我会要求它帮我补充一些高频知识点,它自己脑补一堆还说得很笃定,实际上没啥卵用的知识点 车轱辘话 :同一个意思翻来覆去说,换个表
幻觉 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 47 篇相关文章 · 第 1 / 3 页
最近在用 AI 整理自己积累的笔记,想让它帮我修正和优化一下笔记内容,然后查询官方文档指出笔记中有问题的知识点。 试了一圈下来发现几个问题: 幻觉太多 :我会要求它帮我补充一些高频知识点,它自己脑补一堆还说得很笃定,实际上没啥卵用的知识点 车轱辘话 :同一个意思翻来覆去说,换个表
bilibili.com 全国首例“AI幻觉”侵权纠纷案宣判_哔哩哔哩_bilibili 全国首例“AI幻觉”侵权纠纷案宣判, 视频播放量 153500、弹幕量 585、点赞数 5431、投硬币枚数 249、收藏人数 2181、转发人数 1496, 视频作者 央视频, 作者简介
跑不来测试然后让opus查一下…这codex工作一下午,开始蹦幻觉了…乱写工具名,read和find写错了直接干崩了。 熬夜擦屁股中…,我是200美金直接支付的正价pro20,不存在中转掺假。 5 个帖子 - 3 位参与者 阅读完整话题
使用环境:deepseek官方接口+最新版OpenCode DeepSeekV4 pro-max(以下简称v4)的上下文能力,阅读能力,简单的推理理解能力毋庸置疑。但是最近重度用了一阵子发现,就算和kimi比,v4还是存在幻觉问题。 举个例子,我让agent去读取我的大论文并扩写
cc搭配deepseek,是不是上下文不是1M?感觉上下文很快就用完了,然后就丢弃前面的开始出现幻觉,越改越不对了。 5 个帖子 - 4 位参与者 阅读完整话题
接了个2api,调了半天 toolcall 使能还以为是自己瞎改 ds2api 导致的奇妙问题,结果上号一看气笑了,模型在自己意淫 toolcall 结果 10 个帖子 - 7 位参与者 阅读完整话题
不知道是不是因为我的窗口上下文太长的问题,比如在让他在修复bug,修一半他突然幻觉去回复上面已经回答过的问题。把我气的半死。有没有佬遇到跟我一样的情况 9 个帖子 - 4 位参与者 阅读完整话题
网页版deepseek专家模式,在他自己已经给出参考资料的情况下,总结了不属于原文文章的内容,而且前后内容矛盾,不够自洽。 他们源码级别的实践非常值得参考:在一个统一的代码库下,通过命令行参数来决定启动哪种工作负载。编译时可以打出三个不同的二进制文件,分别代表 Web 服务、Wo
快速,稳的,清晰的能力边界 不会动不动出现幻觉 结构化输出稳固 全面强大的多模态能力 agent开发中,处理快速任务永恒的第一选择 sota模型一直在变,flash系列永远是我的白月光 15 个帖子 - 13 位参与者 阅读完整话题
实在想不通了,问 V4 它自己也说不清,flash还有一堆幻觉,有无业内人士从电费、硬件折旧、并发数等角度算下每百万token V4 Pro 的真实成本 5 个帖子 - 5 位参与者 阅读完整话题
各位大佬,平常在使用ai的时候是如何避免ai幻觉的,比如在处理数据中会编造数据,撰写文本时会主动添加一些ai主观的一些内容 10 个帖子 - 5 位参与者 阅读完整话题
4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标
他生成图片时会访问互联网来进行查找资料吗?生成冷门人物图片的幻觉率都那么低 1 个帖子 - 1 位参与者 阅读完整话题
思维链没官网那么长 捞针不循环 起码开玩笑还会标明 13 个帖子 - 9 位参与者 阅读完整话题
不是,你别这样搞啊,今天这么大的热点…… 6 个帖子 - 6 位参与者 阅读完整话题
等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题
如图,本来想简单看看v4 pro的小说能力如何,但是查看思维链发现怎么出现了疑似幻觉问题 4 个帖子 - 3 位参与者 阅读完整话题
这个毋庸置疑把,模型幻觉和指令遵循,目前应该是第一 1 个帖子 - 1 位参与者 阅读完整话题
为啥在电脑端浏览器访问,浏览话题和浏览帖子感觉很多都不计数。手机端浏览器访问,计数夸夸涨?是我的幻觉吗? 2 个帖子 - 2 位参与者 阅读完整话题
除了 claude 模型没用过,其他模型都试过了,感觉 glm5.1 真的很强,大部分需求都是一遍过,比如下面这个需求,如果是之前估计怎么也得调试个几次,现在 glm5.1 一次过了 gemini 和 gpt5.4 感觉都不如 glm5.1 好用,是幻觉还是真的