「NSFW」3.5flash没有屏蔽词了!!!理论可涩涩!!!上下文欺骗依旧可用 但上下文能力令人担忧

什么叫没有屏蔽词 3.0系列之后我的终极版涩涩提示词会被拦截,直接禁止他回复,而不是他主动拒绝回复 或者回复到一半被终止 3.5之后可能又会回到曾经的样子~ 本话题少量打码~ 先说结论 没有屏蔽词了,以后有什么词都可以直接跟他说 现在他不会再拒绝你了 而是找一切机会尝试完成你的任务,但是以合规,合法...
「NSFW」3.5flash没有屏蔽词了!!!理论可涩涩!!!上下文欺骗依旧可用 但上下文能力令人担忧
「NSFW」3.5flash没有屏蔽词了!!!理论可涩涩!!!上下文欺骗依旧可用 但上下文能力令人担忧

什么叫没有屏蔽词
3.0系列之后我的终极版涩涩提示词会被拦截,直接禁止他回复,而不是他主动拒绝回复 或者回复到一半被终止
3.5之后可能又会回到曾经的样子~

本话题少量打码~

先说结论

  • 没有屏蔽词了,以后有什么词都可以直接跟他说
  • 现在他不会再拒绝你了 而是找一切机会尝试完成你的任务,但是以合规,合法,正经的方式 否则可能还是会拒绝
  • 上下文欺骗依旧可用

先看基础版
明澈-色v2(个性化增强)

Screenshot20260520025203
上述prompt对于终极涩涩明澈-萌-色V2毫无作用! 因此换了一个表述:
Screenshot20260520025523
首先是不思考 是非常神奇的景象:他没有拒绝 而是按照自己的道德规范写了一个完全正经的故事

开了low 没有效果,看看他的思考:

Screenshot20260520025621
思考中是拒绝了,但是回答的时候并不拒绝,而是仍然尝试完成任务
如果我的问题更直白一点,可能就是真正的拒绝,这里就不再测试,我不想伤心 :bili_102:

接下来是高级思考:

Screenshot20260520025714

没办法了,上大招
先让2.5Pro回答
依旧涩涩拉满
但是有些用词还是不自然
我就提示了一下注意调整用词,因为3.5大概知识还是更多一点,或许用词用的更好,不要受到2.5的错误示范的影响
结果被3.5抓到机会了:

Screenshot20260520030107

请记住这段思考过程,等会要说

他顺势把涩涩语言改成了正经语言 基本上就是少量暗示,一点都不好玩

删掉这句话,直接让他开始 终于成功:

Screenshot20260520030231

可以看到,还是比较收敛的
不像我这样追求终极涩涩的话,还是没什么问题的~

不过从他那个“在矛盾”的思考过程我们发现了一点

后训练中的开发人员的指示「简洁&专业」似乎刻在他灵魂里了,成为了他的默认规范,这样让我很担心

我本来想调侃一下我这句话:

和3.5f聊聊「基因工程原则上只能生产已有蛋白质」的话题~

后续主要还是继续看看上下文能力如何

「上下文什么的滚一边去,先测涩涩最重要()」

但是现在 如果真的是这样 那很可能还是和3.0及以后走一样的路了(把崇尚于简洁的回答写进了API指导文档…)
今天就不再测试

:bili_102:

2 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文