数字替身?hermes agent使用体验讨论帖
为什么最新版本,有多模态的模型不能直接看图片,还要调用vision analyze 话说各位佬体验如何?能做到数字替身,外置大脑的水平吗? GPT-5.5各位佬在上面的体验如何? 1 个帖子 - 1 位参与者 阅读完整话题
模态 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 129 篇相关文章 · 第 1 / 7 页
为什么最新版本,有多模态的模型不能直接看图片,还要调用vision analyze 话说各位佬体验如何?能做到数字替身,外置大脑的水平吗? GPT-5.5各位佬在上面的体验如何? 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”, 正式面向全球全量开源 。开发者可以免费下载、部署,并基于此进行二次开发。 此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场
IT之家 5 月 22 日消息,字节跳动最新发布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。 与把“理解”和“生成”拆成多个模块再拼接的常见方案不同, Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体
deepseek多模态咋没消息了,不仅web端没有全面上线,api也还没有,不包括2api出来的。cc里用不能识图感觉好麻烦呀,我已急哭 。 5 个帖子 - 4 位参与者 阅读完整话题
飞书客服表示月底或下月初要发m3了。网传大参数+多模态+1M上下文,佬友们觉得实际发布后会怎么样? SOTA+价格公道,夯! 性能尚可但涨价 平平无奇,胜在便宜 拉完了 点击以查看投票。 17 个帖子 - 13 位参与者 阅读完整话题
最近被谷歌在 I/O 大会上发布的 Gemini Omni Flash 模型的视频生成效果惊艳到了。这个模型最强的地方在于它是一个原生多模态模型,不像以前的工具把画面和声音分开处理,它是“音画一体”一次性吐出来的。 核心的几个爽点和大家分享一下: 真正的多模态混输:不止是文生视频
最近被谷歌在 I/O 大会上发布的 Gemini Omni Flash 模型的视频生成效果惊艳到了。这个模型最强的地方在于它是一个原生多模态模型,不像以前的工具把画面和声音分开处理,它是“音画一体”一次性吐出来的。 核心的几个爽点和大家分享一下: 真正的多模态混输:不止是文生视频
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
最近抱抱脸上看到字节开源了个Any-to-Any模型(字节好久没开源过东西了吧),支持图像视频输入理解和生成 huggingface.co bytedance-research/Lance · Hugging Face We’re on a journey to advance
Gemini Omni:全模态输入输出(支持视频编辑) Gemini 3.5 Flash:输出巨快1500tokens/s Gemini Spark:Google版龙虾 新 Google 搜索:支持多模态输入 5 个帖子 - 5 位参与者 阅读完整话题
我意见预料到了这几天Gemini的新闻了 3.5发布第一天 史上最强AI,新AIGC犯事,多模态原生模型与Anthropic同级别Agent配套发布。奥特曼当场昏厥在椅子上,达里奥直接放弃竞争! 3.5发布第七天 性能勉强追平GPT5.5,开发者严重怀疑降智,Google宣称正在
最近在完善多模态Agent项目的时候对记忆管理模块有些疑问。 我现在的记忆模块非常非常的简单,除了最开始设置的全局记忆人设模块以外只会讲最近n次对话的历史记录进行总结然后一并和全局记忆送入上下文生成中。 但是这样的记忆方式不会让项目有逐渐学习的过程于是优化为三个板块进行管理: 全
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
满血版 Seedance 2.0 无真人限制,支持多模态参考(图片 / 视频 / 音频),支持 API 调用,目前只支持 15 秒视频生成,定价($1 = 70 积分): Seedance 2.0:120 积分( 720p+无视频输入) ~ 380 积分( 1080p+有视频输入
满血版 Seedance 2.0 无真人限制,支持多模态参考(图片 / 视频 / 音频),支持 API 调用,目前只支持 15 秒视频生成,定价($1 = 70 积分): Seedance 2.0:120 积分( 720p+无视频输入) ~ 380 积分( 1080p+有视频输入
满血版 Seedance 2.0 无真人限制,支持多模态参考(图片 / 视频 / 音频),支持 API 调用,目前只支持 15 秒视频生成,定价($1 = 70 积分): Seedance 2.0:120 积分( 720p+无视频输入) ~ 380 积分( 1080p+有视频输入
满血版 Seedance 2.0 无真人限制,支持多模态参考(图片 / 视频 / 音频),支持 API 调用,目前只支持 15 秒视频生成,定价($1 = 70 积分): Seedance 2.0:120 积分( 720p+无视频输入) ~ 380 积分( 1080p+有视频输入
佬们,准备参加人工智能的竞赛,方向是多模态目标检测的,目前学了深度学习的基础内容,想请教一下后面实践的学习路线 1 个帖子 - 1 位参与者 阅读完整话题
(话题已被作者删除) 1 个帖子 - 1 位参与者 阅读完整话题
智谱的原生多模态模型,到底什么时候来? 最近这个问题,在 X 上被直接推到了智谱创始人、清华大学教授唐杰面前。在今年 1 月的公开活动上,唐杰曾谈到, 大模型如何把视觉、声音、触觉等多模态信息统一感知,也就是实现"原生多模态模型",仍然是一个短板。 现在,他给