训练 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第4页 - 钛刻科技 | TCTI.cn

训练 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第4页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 124 篇相关文章 · 第 4 / 7 页

[Local LLM] 请教一个关于模型训练主机配置的问题

主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以

tech v2ex.com 2026-04-26 01:14:45+08:00

请教一个关于模型训练主机配置的问题

主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以

tech www.v2ex.com 2026-04-26 01:10:41+08:00

[Local LLM] 请教一个关于模型训练主机配置的问题

主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以

tech v2ex.com 2026-04-26 01:03:28+08:00

[Local LLM] 请教一个关于模型训练主机配置的问题

主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以

tech v2ex.com 2026-04-25 23:02:26+08:00

deepseek v4的思考链调试

deepseek在预训练的时候专门为了roleplay设计了一套思维链的切换过程,相关工作人员将其公布在了GitHub上 victorchen96/deepseek_v4_rolepaly_instruct: 对于DeepSeek-V4角色扮演的特殊控制指令的说明 作者在其小红书

tech linux.do 2026-04-25 20:44:29+08:00

【辟谣】“任正非内部邮件,deepseek使用昇腾训练”图片是AI生成的,原始邮件是黄仁勋发给sam的

知乎点赞2000+,图片源头微博用户已经删帖。 15 个帖子 - 12 位参与者 阅读完整话题

tech linux.do 2026-04-25 19:26:58+08:00

LongCat-2.0-Preview 天气卡片,全程基于国产算力集群训练

昨天申请的内测体验,今天通过了,据说是全程基于国产算力集群训练 美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练 前沿快讯 [image] 美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练 -

tech linux.do 2026-04-25 17:33:41+08:00

我的开源项目,欢迎大家使用和批评,本地无字典字符型模型训练架构代码完全开源,可形成语义结构

欢迎批评,也是 vibe coding 的产物,我是在尝试学习数学和物理相关理论的时候结合编码学的一些自己的看法在做实验,当然实验内容大部分也是 vibe coding 的产物,现有基准是这个模型在本地学习 fineweb 数据集,架构没有词典层,只有字符学习和相关纯数学架构和编

tech www.v2ex.com 2026-04-25 09:17:46+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 20:58:36+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 19:58:36+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 19:58:36+08:00

美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练

美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练 - IT之家 6 个帖子 - 6 位参与者 阅读完整话题

tech linux.do 2026-04-24 19:45:09+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 18:58:36+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 18:58:36+08:00

美团万亿级大模型 LongCat-2.0-Preview 开放测试,全程基于国产算力集群训练

IT之家 4 月 24 日消息,据《科创板日报》今日报道,美团新一代基础大模型 LongCat-2.0-Preview 已经开放邀请测试,该模型总参数规模突破万亿,量级跻身全球顶尖大模型行列。 这款尚未公布正式命名的大模型参数量级达到万亿级别,采用了混合专家(MoE)的先进架构,

tech www.ithome.com 2026-04-24 18:38:14+08:00

大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech www.v2ex.com 2026-04-24 17:58:36+08:00

[程序员] 大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech v2ex.com 2026-04-24 16:58:36+08:00

[程序员] 大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech v2ex.com 2026-04-24 15:58:36+08:00

[程序员] 大伙有想过二次训练吗?

比如我下载了一个模型。 然后再把我所有文档交给它,二次训练。 那么,是不是就没必要 RAG 了。 通过这个模型,我就能提问了嘛,毕竟,我的基因已经嵌入进去了。

tech v2ex.com 2026-04-24 14:58:36+08:00

测试deepseek 给我测笑了

先说现在的结论:至少ds真没说大话 也没搞什么预训练 或者说对什么测试过拟合 而且现在结果非常不稳定,自己看吧 测试均在cc中使用deepseek 官方api测试 deepseek v4 pro 开启max 这是我见过最疯狂的答案 这也挺疯狂的 还有答对到就差最后一步的 但是你不

tech linux.do 2026-04-24 14:30:34+08:00