我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第56页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2580 篇相关文章 · 第 56 / 129 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
刚看到D老师特价的消息去搜集了信息做了下价格对比,国产模型在性价比这块还是拉满了,感觉这段特价的时间里能爽用DeepSeek过渡一下啊。国产模型在性能上已经和外国顶尖模型差距缩小很多,在大多数使用场景下国产模型在能以绝对的价格优势干趴外国模型,想想未来国产模型以不俗的性能和超便宜
api-docs.deepseek.com 模型 & 价格 | DeepSeek API Docs 下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 t
sub2api的性能很好,但是路由规则比较死板,一个key只能对应一种协议,我喜欢在cc里面同时用gpt和glm,所以搓了了一个 cf worker,进行自动路由,一个Key可以调用多个模型。 使用方法: /** * Cloudflare Worker: model-based
不理解,明明制定了模型为 glm-5.1,怎么大量消耗都是其他模型的?排第一的是它自家的豆包。 2 个帖子 - 2 位参与者 阅读完整话题
在长任务里 5.4 和 5.5 总会遇到这个问题,在碰到自动压缩上下文的时候如果当前模型是 5.4 以上,极大概率触发 stream disconnected 导致自动任务失败,并且重试继续失败无法当前会话,目前看来比较靠谱的办法是手动切换到 5.3 ,回复内容触发压缩上下文后,
主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以
以前用命令行为每个模型启动一个 llama-server ,管理起来挺麻烦的,尤其是切换模型看日志的时候。 最近写了个 Web 管理工具,核心功能: 多实例管理 - 同时运行多个 llama-server ,通过卡片管理 实时日志 - SSE 推送,启动/停止自动切换到对应实例
各位佬好, 最近在做自己的一点小agent开发,主要还是用langchain框架,之前对接的模型要么是本地部署,要么是租算力平台部署,后期发现了IFlow提供免费的模型api调用,可惜4月中旬已经关停了。 目前还有什么平台可以提供免费的模型api调用吗?不需要顶尖的模型,只是一些
用户明确指出工具来源了。我先按开发要求用 tool search 查出这个延迟工具的准确名字和调用方式,再继续 csv-todo-loop。如果能拿到 codebase-retrieval,就从 A1 开始真正施工。 以前从没有这样过. 睁眼说瞎说! 今天使用了 2E 5.4 2
,如下: 这个我是真的绷不住了。但是也有还行的: 既然数学
无聊的时候对一些新出的模型提了一个很久之前困扰我网络折腾上的难题。 题目如下: 我有一个需求,就是通过有公网IPv4的服务器+wireguard VPN将NAT里面服务器的端口暴露出去,并且能够让NAT服务器的服务能看得到请求客户端原始的IP,并且没有Proxy Protocol
DeepSeek-V4-Pro API 限时特惠 DeepSeek-V4-Pro 模型 API 限时 2.5 折优惠,优惠期截至 2026 年 5 月 5 日。 详情请参考最新的官方 API 文档。 使用 Claude Code 时,开启 1M 上下文需要设置模型名为 deeps
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: README 已添加链接 我帖子内的项目介绍,AI生成、润色内容部分已截图发出