我的gpt无法停止思考
我感觉它可以思考到GPT-6出的那一天 1 个帖子 - 1 位参与者 阅读完整话题
思考 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第6页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 228 篇相关文章 · 第 6 / 12 页
我感觉它可以思考到GPT-6出的那一天 1 个帖子 - 1 位参与者 阅读完整话题
今天在 Cursor 使用 CPA 上的 GPT 号池时,选中了 GPT-5.5 的 Extra High 思考等级。 随后发现发送消息会提示“速率限制”报错,但切换成 High 等级后又可以正常使用,让我百思不得其解。 查看 Cursor 网页后台的用量记录后发现,Cursor
deepseek在预训练的时候专门为了roleplay设计了一套思维链的切换过程,相关工作人员将其公布在了GitHub上 victorchen96/deepseek_v4_rolepaly_instruct: 对于DeepSeek-V4角色扮演的特殊控制指令的说明 作者在其小红书
team号的5.5pro是假的吗。让它按照我写好的要求去深度调研,写一个研究报告,之前的pro能思考很久,给的答案和效果很令人满意。但是现在的5.5pro的回答完全不思考一样,也不按照要求去做,还一直询问你需要确定的点。结果就是啥也没干,额度直接没了 10 个帖子 - 5 位参与
最新版也不能调控ds的思考强度,而且更新了bug一堆 还特别重型,我只需要对话功能就够了 分组都变成乱码了 4 个帖子 - 3 位参与者 阅读完整话题
使用CC Switch 在Claude Code里用gpt,如何使用xhigh的思考? 目前的配置: 但是后台调用信息里显示还是high,并非xhigh 15 个帖子 - 5 位参与者 阅读完整话题
换浏览器/换ip无效/指纹/无痕,均无效。thinking xhigh正常,pro不思考秒出 以上描述均为网页端 3 个帖子 - 2 位参与者 阅读完整话题
这两天感觉 claude code 是不是存在很严重的问题? 长时间卡主,一直在 think,几次都思考了几十分钟都没有任何结果,只能强制关掉再来,然后问一两个问题之后就有卡主不出结果了。 token 全被这样消耗了。
这两天感觉 claude code 是不是存在很严重的问题? 长时间卡主,一直在 think,几次都思考了几十分钟都没有任何结果,只能强制关掉再来,然后问一两个问题之后就有卡主不出结果了。 token 全被这样消耗了。
这两天感觉 claude code 是不是存在很严重的问题? 长时间卡主,一直在 think,几次都思考了几十分钟都没有任何结果,只能强制关掉再来,然后问一两个问题之后就有卡主不出结果了。 token 全被这样消耗了。
叠甲: 企业级RAG开发初学者, 还是有很多我不太明白的地方, 不吝赐教! 这两天高强度刷L站发现大家对于DS长上下文能力的赞誉,我现在对我当前在做的企业级RAG产生了巨大的怀疑… 当前我的RAG大量是基于适配短上下文而建立的,写了超级多的分段逻辑/向量化流程等,那现在我怀疑,如
忘了从哪看到,Deepseek网页版的深度思考的深度是High? 但是 官方的技术报告 里提到,Max思考深度使用了特定提示词。 (翻译) (翻译) 提示词: Reasoning Effort: Absolute maximum with no shortcuts permitt
早上起来拉取了一下ollama cloud的模型列表,惊喜的发现v4pro已经上了,连忙测试了一下,发现速度也快的惊人,让人很是喜悦啊! 但很快我就发现不对劲,不管是太阳系模拟还是魔方居然都无法好好完成,跟我用deepseek官方测试的简直是天壤之别 然后我意识到了,不会是压根没
Juice 是什么? Juice 值仅仅指示模型思考深度 。一般来说,在很多推理问题下,推理(reasoning)深度越高,推理消耗的 Token 越多,效果越好,但是: 模型智力中,思考深度仅仅是很小的一部分 不同模型的Juice不可直接比较 ,其绝对值也没有意义,Juice
思维链没官网那么长 捞针不循环 起码开玩笑还会标明 13 个帖子 - 9 位参与者 阅读完整话题
如图,今天用Kelivo的最新版(1.1.12,支持了DS4新参数的版本)用DS V4 Flash的模型续写一篇文章,前面都是使用Grok生成的,后面我切换为DS4 Flash进行续写,结果就是胡言乱语了 但是只要我开了轻微的思考,Kelivo显示只思考了3s,吐字还是很快的,续
蚂蚁百灵万亿旗舰模型 Ling-2.6-1T 发布:主打“快思考”,对标 GPT-5.4 非推理版 - IT之家 5 个帖子 - 5 位参与者 阅读完整话题
IT之家 4 月 24 日消息,蚂蚁集团旗下百灵大模型团队正式发布面向即时任务执行的万亿级综合旗舰模型 ——Ling-2.6-1T。 Ling-2.6-1T 采用了 MLA(Multi-head Latent Attention)与 LinearAttention 的混合架构设计
如题,找了一圈没找到,是 APP 真的没有吗?不应该呀。 8 个帖子 - 5 位参与者 阅读完整话题
RT,今天让5.5模型帮忙生成一些几十个emoji表情,思考速度是中,标准模式和快速模式都试过,但是依旧是生成几个之后就开始报错,只能重新继续任务,下面是报错信息,跟我的网络环境有关系吗? stream disconnected before completion: An err