大伙有想过二次训练吗?
比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。
模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第68页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2651 篇相关文章 · 第 68 / 133 页
比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。
美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练 - IT之家 6 个帖子 - 6 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
这几天真是被sub2api cpa气的不行,功能做的实在是太差了 先是cpa有模型添加bug,我明明加了5.3codex,模型列表就是不显示 又加了个5.4,你猜怎么着,5.3codex又回来了 然后是sub2api,格式转换一坨,工具调用全出错,cpa也差不多少,我firewo
为什么我用/model这样切换模型会直接卡死,有佬友可以指点一下吗 2 个帖子 - 2 位参与者 阅读完整话题
之前破限的好好的,今天使用5.5以后,经常性弹出这个来。 是不是现在模型添加了敏感检测了? 3 个帖子 - 3 位参与者 阅读完整话题
deepseek网页端是不是v4模型?肯定不可能是v4-pro,但 是v4吗?不会还是v3.2吧 有佬知道吗? 3 个帖子 - 2 位参与者 阅读完整话题
试了下rikkahub不能正常调用,不知道有没有别的客户端可以支持 7 个帖子 - 3 位参与者 阅读完整话题
以前在OpenCode中使用Claude和GPT的时候就发现. 同样GPT的聊天180ktoken, 一切到Claude就变成260ktoken, 我一度以为是GPT比较省Token. 现在用CC, 用Claude聊天, 显示160ktoken, 切到GLM5.1变成100kto
RT,今天让5.5模型帮忙生成一些几十个emoji表情,思考速度是中,标准模式和快速模式都试过,但是依旧是生成几个之后就开始报错,只能重新继续任务,下面是报错信息,跟我的网络环境有关系吗? stream disconnected before completion: An err
比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。
比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。
萌新求问 目前还有没有便宜的相对稳定邀请送token,硅基流动用完了新的太贵 七牛云被封了一个不敢用了 1 个帖子 - 1 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
实现一个比较常规机械时钟,实现的效果如下 链接直达
实现一个比较常规机械时钟,实现的效果如下 链接直达
实现一个比较常规机械时钟,实现的效果如下 链接直达
IT之家 4 月 24 日消息,据《科创板日报》今日报道,美团新一代基础大模型 LongCat-2.0-Preview 已经开放邀请测试,该模型总参数规模突破万亿,量级跻身全球顶尖大模型行列。 这款尚未公布正式命名的大模型参数量级达到万亿级别,采用了混合专家(MoE)的先进架构,