在使用cherry studio调用DeepSeek官方API时发现的,模型会频繁出现忽略输入内容的情况。
具体表现为,当单次输入的prompt内容较长时,比如超过10000tokens,大模型的输出结果就明显看出来,它忽略了前5000个输入token,实际使用过程中甚至出现过忽略前7000个token的情况。
当进行多轮对话后,这种现象也会复现,表现为,还是忽略当前这次输入的前半部分内容,只处理本次提示词的后半部分。并且,前面的对话内容并没有被遗忘。
但只要发现它发生了提示词忽略的现象,重新执行本次推理,它就基本上可以重新执行完整的提示词,但也有一定的概率仍然忽略前半部分提示词。
不知道这是DeepSeek的缓存机制导致的还是某种缺陷。
以上现象均发生于对话总token数小于10万以内,应当不是上下文内容过长造成的。甚至第一轮对话就可能触发。
8 个帖子 - 5 位参与者