模态 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

模态 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 71 篇相关文章 · 第 1 / 4 页

Token Plan 免费 商汤日日新

日日新 SenseNova 日日新 SenseNova - 商汤大模型 商汤日日新大模型,原生多模态,突破技术边界 可用三个模型 24 个帖子 - 17 位参与者 阅读完整话题

tech linux.do 2026-05-03 18:47:04+08:00

deepseek v4的多模态怎么样?不会是胶水吧?

v4p会有多模态吗?感觉智力上v4比较一般,但是注意力很不错。不过这个多模态是什么情况? 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-05-03 11:41:51+08:00

关于各家 C 端的多模态

rt,昨天用同一张图片扔进了各家 C 端,然后发现 ChatGPT 和 Gemini 好像会压画质,我让他们做文字识别的时候 ChatGPT 会说图太糊了认不出来,Gemini 会直接乱编。 然后试了一下国内的,无论是 Qwen Studio 还是豆包都不会有压画质的情况,文字都

tech linux.do 2026-05-02 16:43:43+08:00

gemma4 vs qwen3.6 哪个更适合本地部署,哪个好啊?

佬友们,最近刷到这俩模型说是很强,强的可怕? 618想买块显卡 本地部署 模型跑着玩玩的,这俩模型哪个好?都是多模态的 怎么比较 还有618买显卡 我想买 5060TI 16G的 能跑吗?有啥建议? 20 个帖子 - 10 位参与者 阅读完整话题

tech linux.do 2026-05-02 13:40:19+08:00

有没有适用于多模态模型的搜索功能 MCP ?

我日常使用 Cherry-Studio,但是我发现 Cherry-Studio 内置的几个搜索功能,包括 Searxng 和 Tavily 都不支持返回 Image,请问这是能实现的吗?因为我部署的模型是多模态模型,我想他能够直接从网络上获取图片信息然后分析。如果能够实现视频输入

tech linux.do 2026-05-02 02:43:35+08:00

大模型部署/微调求指导

接了导师需求,大概是做一个多模态任务(原本是一个简单的回归任务,然后想利用大模型对回归结果做解释说明),调研了本领域几篇文献对大模型的利用方式包括:纯推理、做微调、利用大模型输出的 hidden states、logits做回归的。 实验室算力也就双卡4090,如果希望能覆盖上述

tech linux.do 2026-05-01 21:28:24+08:00

DeepSeek连夜删掉的新论文到底说了什么

昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示“Excited to release”。 今天一早,推文删了,GitHub 上的论文也撤了。

tech plink.anyfeeder.com 2026-05-01 14:05:19+08:00

DeepSeek 公布多模态模型技术报告

DeepSeek 公布多模态模型技术报告 - IT之家 4 个帖子 - 4 位参与者 阅读完整话题

tech linux.do 2026-05-01 12:13:55+08:00

DeepSeek公开多模态模型技术报告公布:超越GPT-5.4

DeepSeek在GitHub上发布了多模态推理模型及技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》。 该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理

tech plink.anyfeeder.com 2026-05-01 12:05:44+08:00

DeepSeek 公布多模态模型技术报告

IT之家 4 月 30 日消息,DeepSeek 在 GitHub 平台正式发布了其多模态大模型,并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架,旨在突破当前多模态大语言模型(MLLMs)在空间参照任务中的核心瓶颈。 技术报告指出,尽管多模态大语言模型近

tech www.ithome.com 2026-04-30 22:39:33+08:00

DeepSeek发布「视觉原语思考」框架,让多模态模型边推理边“指”

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》及其开源仓库,提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“ 最小思考单元 ”,在推理过程中直接交织使用,使模型在

tech linux.do 2026-04-30 18:35:38+08:00

评价一下雷总送的MiMo Token

速度还可以,功能也还行,多模态、TTS都能用,API也很稳定,并发高一点也不怎么爆错。优点很多,缺点就是消耗的速度太快了,不管是七亿的还是十六亿的,基本上用不了几天就不够用了,再加上没缓存、Pro的倍率翻倍,薅完之后就是不太想续费(对我而言) 6 个帖子 - 6 位参与者 阅读完

tech linux.do 2026-04-30 16:42:30+08:00

沉浸式翻译搭配deepseek v4 flash ,速度无敌了,秒翻

速度快而且非常便宜,梁圣继续给我冲,期待多模态的版本开放,如果后训练再侧重coding领域就更舒服了 3 个帖子 - 3 位参与者 阅读完整话题

tech linux.do 2026-04-30 16:14:35+08:00

[推广] 小米 MiMo V2.5 邀请体验(送 ¥10 额度)

🚀 小米 MiMo V2.5 邀请体验(送 ¥10 额度) 最近在试小米的 MiMo V2.5 ,大模型能力挺猛,复杂任务 / 代码 / 多模态都还不错。 🎁 邀请福利 双方各得 ¥10 体验金 有效期 40 天 可用 Pro / Omni / Flash / TTS 全系模型

tech v2ex.com 2026-04-30 14:30:14+08:00

[推广] 小米 MiMo V2.5 邀请体验(送 ¥10 额度)

🚀 小米 MiMo V2.5 邀请体验(送 ¥10 额度) 最近在试小米的 MiMo V2.5 ,大模型能力挺猛,复杂任务 / 代码 / 多模态都还不错。 🎁 邀请福利 双方各得 ¥10 体验金 有效期 40 天 可用 Pro / Omni / Flash / TTS 全系模型

tech v2ex.com 2026-04-30 12:22:58+08:00

[问与答] deepseek 多模态的识图模式有人试过没

感觉怎么样

tech v2ex.com 2026-04-30 10:05:00+08:00

在我催更三天之后,ds火速上线了多模态

从 话说都V4了,DeepSeek现在还不是多模态吗 继续讨论: 大号没有 小号反而有 真随机啊 感觉可能是中等梯队 看博主测试并不是非常惊艳,大部分其他也会错的,他也会错 我还是比较关心文字OCR,我去试一下 ds经典的OCR错误率90%,太离谱了(手写文字 相对于豆包专家的3

tech linux.do 2026-04-30 02:51:11+08:00

试图用deepseek的多模态复刻L站

这是原图: 这是效果: 这是地址: https://chat.deepseek.com/share/n7r4p49o83wkkdr995 佬友们怎么评价 我感觉还行 3 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-30 00:49:14+08:00

小米的模型对前端开发而言很抽象

写代码用 2.5Pro 但是 2.5Pro 不支持多模态,也就是说你无法把设计稿交给他去写代码 支持多模态的 2.5 似乎不适合用来写代码...

tech www.v2ex.com 2026-04-29 20:37:39+08:00

小米的模型对前端开发而言很抽象

写代码用 2.5Pro 但是 2.5Pro 不支持多模态,也就是说你无法把设计稿交给他去写代码 支持多模态的 2.5 似乎不适合用来写代码...

tech www.v2ex.com 2026-04-29 20:37:39+08:00