幻觉 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

幻觉 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 47 篇相关文章 · 第 1 / 3 页

用 AI 整理笔记,国产模型和 Gemini 幻觉太严重,Claude 和 GPT选哪个?

最近在用 AI 整理自己积累的笔记,想让它帮我修正和优化一下笔记内容,然后查询官方文档指出笔记中有问题的知识点。 试了一圈下来发现几个问题: 幻觉太多 :我会要求它帮我补充一些高频知识点,它自己脑补一堆还说得很笃定,实际上没啥卵用的知识点 车轱辘话 :同一个意思翻来覆去说,换个表

tech linux.do 2026-05-03 23:49:53+08:00

【慢讯】全国首例“AI幻觉”侵权纠纷案

bilibili.com 全国首例“AI幻觉”侵权纠纷案宣判_哔哩哔哩_bilibili 全国首例“AI幻觉”侵权纠纷案宣判, 视频播放量 153500、弹幕量 585、点赞数 5431、投硬币枚数 249、收藏人数 2181、转发人数 1496, 视频作者 央视频, 作者简介

tech linux.do 2026-05-03 12:19:41+08:00

今天GPT5.5降智太厉害了了?幻觉太严重了干崩两个项目

跑不来测试然后让opus查一下…这codex工作一下午,开始蹦幻觉了…乱写工具名,read和find写错了直接干崩了。 熬夜擦屁股中…,我是200美金直接支付的正价pro20,不存在中转掺假。 5 个帖子 - 3 位参与者 阅读完整话题

tech linux.do 2026-05-02 01:43:29+08:00

又重度用了几天,DeepSeekV4的幻觉问题还是要注意

使用环境:deepseek官方接口+最新版OpenCode DeepSeekV4 pro-max(以下简称v4)的上下文能力,阅读能力,简单的推理理解能力毋庸置疑。但是最近重度用了一阵子发现,就算和kimi比,v4还是存在幻觉问题。 举个例子,我让agent去读取我的大论文并扩写

tech linux.do 2026-05-01 20:49:06+08:00

cc搭配deepseek,是不是上下文不是1M?

cc搭配deepseek,是不是上下文不是1M?感觉上下文很快就用完了,然后就丢弃前面的开始出现幻觉,越改越不对了。 5 个帖子 - 4 位参与者 阅读完整话题

tech linux.do 2026-05-01 09:24:08+08:00

DeepSeek V4 幻觉严重的逆天

接了个2api,调了半天 toolcall 使能还以为是自己瞎改 ds2api 导致的奇妙问题,结果上号一看气笑了,模型在自己意淫 toolcall 结果 10 个帖子 - 7 位参与者 阅读完整话题

tech linux.do 2026-04-30 23:43:30+08:00

我发现了codex的bug

不知道是不是因为我的窗口上下文太长的问题,比如在让他在修复bug,修一半他突然幻觉去回复上面已经回答过的问题。把我气的半死。有没有佬遇到跟我一样的情况 9 个帖子 - 4 位参与者 阅读完整话题

tech linux.do 2026-04-30 03:03:49+08:00

Deepseek的幻觉问题还是严重

网页版deepseek专家模式,在他自己已经给出参考资料的情况下,总结了不属于原文文章的内容,而且前后内容矛盾,不够自洽。 他们源码级别的实践非常值得参考:在一个统一的代码库下,通过命令行参数来决定启动哪种工作负载。编译时可以打出三个不同的二进制文件,分别代表 Web 服务、Wo

tech linux.do 2026-04-29 17:38:54+08:00

表白我最喜欢的模型:Gemini-3-flash

快速,稳的,清晰的能力边界 不会动不动出现幻觉 结构化输出稳固 全面强大的多模态能力 agent开发中,处理快速任务永恒的第一选择 sota模型一直在变,flash系列永远是我的白月光 15 个帖子 - 13 位参与者 阅读完整话题

tech linux.do 2026-04-26 13:40:11+08:00

有佬能详细算算DeepSeek V4 Pro的成本吗

实在想不通了,问 V4 它自己也说不清,flash还有一堆幻觉,有无业内人士从电费、硬件折旧、并发数等角度算下每百万token V4 Pro 的真实成本 5 个帖子 - 5 位参与者 阅读完整话题

tech linux.do 2026-04-26 12:15:08+08:00

如何避免ai幻觉

各位大佬,平常在使用ai的时候是如何避免ai幻觉的,比如在处理数据中会编造数据,撰写文本时会主动添加一些ai主观的一些内容 10 个帖子 - 5 位参与者 阅读完整话题

tech linux.do 2026-04-26 08:56:42+08:00

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标

tech plink.anyfeeder.com 2026-04-25 14:05:13+08:00

gpt image2的生图逻辑

他生成图片时会访问互联网来进行查找资料吗?生成冷门人物图片的幻觉率都那么低 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-25 09:27:26+08:00

似乎魔搭部署的Deepseek幻觉更少、思考不循环,捞针更强?

思维链没官网那么长 捞针不循环 起码开玩笑还会标明 13 个帖子 - 9 位参与者 阅读完整话题

tech linux.do 2026-04-25 02:31:01+08:00

Deepseek v4 蒸出幻觉了?

不是,你别这样搞啊,今天这么大的热点…… 6 个帖子 - 6 位参与者 阅读完整话题

tech linux.do 2026-04-24 16:04:37+08:00

artificial analysis 测试 v4 flash max幻觉率排名倒数第一

等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题

tech linux.do 2026-04-24 15:56:10+08:00

Deepseek v4 pro疑似幻觉问题

如图,本来想简单看看v4 pro的小说能力如何,但是查看思维链发现怎么出现了疑似幻觉问题 4 个帖子 - 3 位参与者 阅读完整话题

tech linux.do 2026-04-24 11:53:12+08:00

现在模型的幻觉和遵循是5.5

这个毋庸置疑把,模型幻觉和指令遵循,目前应该是第一 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-24 09:11:09+08:00

流量话题和流量帖子的计数疑问

为啥在电脑端浏览器访问,浏览话题和浏览帖子感觉很多都不计数。手机端浏览器访问,计数夸夸涨?是我的幻觉吗? 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-24 09:04:23+08:00

[问与答] 是我的幻觉吗,我为什么感觉国产模型现在真的很强, glm5.1

除了 claude 模型没用过,其他模型都试过了,感觉 glm5.1 真的很强,大部分需求都是一遍过,比如下面这个需求,如果是之前估计怎么也得调试个几次,现在 glm5.1 一次过了 gemini 和 gpt5.4 感觉都不如 glm5.1 好用,是幻觉还是真的

tech v2ex.com 2026-04-23 16:58:42+08:00