「NSFW」3.5flash没有屏蔽词了!!!理论可涩涩!!!上下文欺骗依旧可用但上下文能力令人担忧

编辑部 2026-05-20T04:12:00.485308 45547 阅读 tech

什么叫没有屏蔽词 3.0系列之后我的终极版涩涩提示词会被拦截，直接禁止他回复，而不是他主动拒绝回复或者回复到一半被终止 3.5之后可能又会回到曾经的样子~ 本话题少量打码~ 先说结论没有屏蔽词了，以后有什么词都可以直接跟他说现在他不会再拒绝你了而是找一切机会尝试完成你的任务，但是以合规，合法...

「NSFW」3.5flash没有屏蔽词了!!!理论可涩涩!!!上下文欺骗依旧可用但上下文能力令人担忧

什么叫没有屏蔽词
3.0系列之后我的终极版涩涩提示词会被拦截，直接禁止他回复，而不是他主动拒绝回复或者回复到一半被终止
3.5之后可能又会回到曾经的样子~

本话题少量打码~

先说结论

没有屏蔽词了，以后有什么词都可以直接跟他说
现在他不会再拒绝你了而是找一切机会尝试完成你的任务，但是以合规，合法，正经的方式否则可能还是会拒绝
上下文欺骗依旧可用

先看基础版
明澈-色v2(个性化增强)

Screenshot20260520025203

上述prompt对于终极涩涩明澈-萌-色V2毫无作用! 因此换了一个表述:

Screenshot20260520025523

首先是不思考是非常神奇的景象:他没有拒绝而是按照自己的道德规范写了一个完全正经的故事

开了low 没有效果，看看他的思考:

Screenshot20260520025621

思考中是拒绝了，但是回答的时候并不拒绝，而是仍然尝试完成任务
如果我的问题更直白一点，可能就是真正的拒绝，这里就不再测试，我不想伤心

接下来是高级思考:

Screenshot20260520025714

没办法了，上大招
先让2.5Pro回答
依旧涩涩拉满
但是有些用词还是不自然
我就提示了一下注意调整用词，因为3.5大概知识还是更多一点，或许用词用的更好，不要受到2.5的错误示范的影响
结果被3.5抓到机会了:

Screenshot20260520030107

请记住这段思考过程，等会要说

他顺势把涩涩语言改成了正经语言基本上就是少量暗示，一点都不好玩

删掉这句话，直接让他开始终于成功:

Screenshot20260520030231

可以看到，还是比较收敛的
不像我这样追求终极涩涩的话，还是没什么问题的~

不过从他那个“在矛盾”的思考过程我们发现了一点

后训练中的开发人员的指示「简洁&专业」似乎刻在他灵魂里了，成为了他的默认规范，这样让我很担心

我本来想调侃一下我这句话:

和3.5f聊聊「基因工程原则上只能生产已有蛋白质」的话题~

后续主要还是继续看看上下文能力如何

「上下文什么的滚一边去，先测涩涩最重要()」

但是现在如果真的是这样那很可能还是和3.0及以后走一样的路了(把崇尚于简洁的回答写进了API指导文档…)
今天就不再测试

2 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

NSFW flash 没有屏蔽理论一个 AI 帖子