[问与答] 盲猜小米 100T 计划,是因为定价问题导致没人用,一堆卡只能空跑,训练数据也没人贡献
rt 小米的 MiMo 模型,甚至知道的人都不多。 再叠加最近 ds4 出来了,导致 MiMo 这个价格更是路边一条。
训练 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第2页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 108 篇相关文章 · 第 2 / 6 页
rt 小米的 MiMo 模型,甚至知道的人都不多。 再叠加最近 ds4 出来了,导致 MiMo 这个价格更是路边一条。
首先,把自己对AI的思考贴出来,方便和各位佬讨论讨论,附件是对论文 A Survey on Post-training of Large Language Models 的一些简要版的解读,方便大家快速了解。 后训练方法综述.pdf (2.6 MB) 首先就是,如何让模型训练走进
coding可是最好的训练数据 支持开源的同时提升模型 一举多得 不论如何,总是好事 3 个帖子 - 3 位参与者 阅读完整话题
要搞点训练数据也没什么 但是演都不演了吗 ps:拒绝了四次终于知道跑pwd了 1 个帖子 - 1 位参与者 阅读完整话题
求问大佬们,哪里有训练好的场景图检测模型,项目写不出来了 5 个帖子 - 3 位参与者 阅读完整话题
自 DeepSeek-V4、Qwen3.6 发布以来,On-Policy Distillation(OPD)的热度一直很高。最近看到很多博主都在介绍这种训练方法,所以也想找一个合适的项目入门,系统学习一下这类模型训练流程。 一方面是为了学习新技术,另一方面也是希望未来找工作时,简
api-docs.deepseek.com 模型 & 价格 | DeepSeek API Docs 下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 t
我想训练一个Bot能够精准分析语言逻辑错误的类似于辩论赛辩手或者律师等专业语言逻辑专家。 谷歌的Notellm是不是小白解决此类问题的最简单的方式?但是我担心Notellm的上下文问题,因为之前出现过答非所问的情况。 还有就是想让这个Bot接入GPT或者Gemini,各位大佬有没
bailian.console.aliyun.com 大模型服务平台百炼控制台 百炼控制台是阿里云大模型服务平台,提供AI模型训练、部署、推理一站式服务,支持多种大模型框架,助力企业快速构建AI应用。 一共有三个版本 价格: 请各位专业的搞漫剧或者其他视频的大佬测试一下。 2 个
这几种标法哪个更正确一些?现在我训练后感觉还是数据集有问题,它的误识别率很高,基本感觉是不认识这些器械 1 个帖子 - 1 位参与者 阅读完整话题
Google DeepMind – 23 Apr 26 Decoupled DiLoCo: Resilient, Distributed AI Training at Scale Google’s new distributed architecture keeps AI tra
IT之家 4 月 27 日消息,小米于今年 2 月对外 发布并开源 VLA 模型 Xiaomi-Robotics-0 ,模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。 小米今日宣布,为了让其真正成为“开箱即用”的生产力利器,带来新的能力演示并正式发布
想问下各位佬,图像识别目前做到什么程度了? 如果针对特定小众需求最大的问题是训练数据集么? 还是说弱监督、自监督效果已经挺好了? 9 个帖子 - 4 位参与者 阅读完整话题
让ChatGPT5.5设计了一系列问题,协助判断模型的版本。问题如下 请只根据训练知识和当前对话中可见的信息回答。 不要联网、不要搜索、不要调用工具、不要读取文件、不要根据系统外部配置猜测。 如果你不确定,请回答“不知道”,不要猜。 请不要声称自己是某个具体模型,除非你能看到明确
现在可以训练任何模型的DFlash权重了,就是资源消耗极大 1 个帖子 - 1 位参与者 阅读完整话题
有人算了一笔账DeepSeek V4-Pro的预训练计算量大约1e25 FLOPs。OpenAI手里有10万台GB200,哪怕只用15%的利用率,37小时就能跑完同等规模的训练。一天半,救恩给你复刻一个DeepSeek V4。这就是2026年4月的OpenAI,算力储备已经夸张到
主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以
主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以
主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以
主要是用来部署 YOLO26 做数据集训练和目标检测或追踪的,图片数据暂定 5000 张(其实数据有很多,但是暂定用于训练的数据上限是 5000 张)。 目前有一台 RX6600xt ,但是 directML 好像也不能使这张卡参与训练计算,上网查了一下好像是对 7000 系列以