2080ti 11g本地部署qwen 3.6 35b a3b,128k 上下文,67tps
我是windows上llama.cpp部署的,先看效果图。 这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。 得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上
下文 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 249 篇相关文章 · 第 5 / 13 页
我是windows上llama.cpp部署的,先看效果图。 这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。 得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上
昨晚用codex改个项目,一共弄了十几轮,今天一看token炸了啊,一下子空了10个free号,花了80M的token,从sub2api的统计看,每次请求缓存都400多K。codex 默认启用的是1M上下文。今天新开了对话,token用量一下就降了。想请教下佬们,是不是codex
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
in遇到好几次了更新以后 看起来像是上下文超出 但是5.4的时候从来没遇到过 8 个帖子 - 5 位参与者 阅读完整话题
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
各位佬友,想问下大家是如何让claude code跨project迁移session上下文的? 背景是这样的:当前从事的一个项目,因为历史包袱原因,很难重构为多git worktree并行开发,因此采用的策略是多git repo并行开发不同特性,每个git repo开启一个cla
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
我回答的是B,然后他说是D. 上下文只有15%. 1 个帖子 - 1 位参与者 阅读完整话题
这是源帖子地址: Claude Code 93个全命令速查手册 1. 项目管理与上下文(12个) 基础设置: /init — 生成 CLAUDE.md,让 Claude 记住项目结构和规范 /add-dir — 新增目录到上下文,多文件夹项目必用 /memory — 编辑 CLA
曾经在1月份发过类似的贴着,当时佬们的回答貌似还在吐槽上下文,智能指针。 如今opus4.6[1M] opus4.7 gpt5.4 gpt5.5 以及普惠1M的deepseekV4pro,AI发展一日千里。 嵌入式的佬们现在对于AI的应用感受如何?尤其是做应用层的嵌入式呢? 还有
1. 项目管理与上下文(12个) 基础设置: /init — 生成 CLAUDE.md,让 Claude 记住项目结构和规范 /add-dir — 新增目录到上下文,多文件夹项目必用 /memory — 编辑 CLAUDE.md,更新架构决策 /context — 查看上下文占用
[!IMPORTANT] 原文来自我的 个人博客 ,可以在这里阅读,也可以去博客 由于mermaid流程图是AI生成,本文的mermaid都是截图 不支持移动和缩放 上下文管理 [!NOTE] 本文借助CodeX辅助阅读源码,文章内容纯手工,mermaid图片为AI生成 水平有限
只有 gpt5.4 才支持 1m 的上下文,现在 gpt5.5 只支持 256k 的上下文,在做长任务的时候发现这个上下文一下就用完了,你们在做长任务的时候是怎么搞的呢?它虽然有 compact ,但是不知道这个 compact 好不好用,是否真的可以最大程度的保留上下文
把提示词给Codex,让Codex帮忙改 提示词.txt (1.6 KB) 效果 11 个帖子 - 10 位参与者 阅读完整话题
首先感谢,佬的详细总结 GPT-5.5 / Codex 上下文相关问题 开发调优 站内有很多关于 5.5 / Codex 上下文相关讨论,比较混乱,总结一下: 首先,我们要知道,gpt-5.5 满血版是 1M 上下文,API 能用到,但是 codex 订阅只给了 400k 上下文
根据 GPT5.5在触发上下文压缩的时候报错404了,这个是OpenAI上游的问题还是sub2的问题呢? · Issue #1865 · Wei-Shaw/sub2api · GitHub 这个issue的评论,把codex_cli_rs/0.104.0改成codex_cli_r