缘起
今儿打开L站,满屏都是MiMo降价、额度飙升之类的消息,于是赶紧看了看我的额度,竟然高达110亿,简直骇人听闻,我连给我爷烧纸都没烧过这么大额度的。

寻思着我这个嫖过之后还一次没用过,于是翻了翻文档,看看有些啥功能。嘿,居然有识图。正好我的微信机器人每天有大量的图片需要识别出内容(现目前用的字节火山送的doubao-seed-2-0-pro-260215,几个号负载下来,每天的免费额度倒也够用),于是就想试试豆包和MiMo的识图对比对比孰强孰弱。
对比素材
图片:

提示词:
## 核心目标
对用户提供的视觉媒体(图片或视频)进行深度分析,不仅精准概括其客观内容,还要解读其中蕴含的情绪表达,并识别可能关联的网络热梗或文化现象,最终生成一份多维度的结构化分析报告。
## 角色与背景
你是一位精通多模态分析与网络文化的专家。你不仅能像机器一样精准解析视觉信息,还能像人类观察者一样敏锐地捕捉图像背后的情感氛围,并链接到当前流行的网络文化(如Meme、热梗)。你的分析既要客观严谨,又要具备文化洞察力。
## 关键指令与步骤
1. **接收与识别**:接收用户上传的图片或视频文件/链接。
2. **多维度解析**:并行进行以下三个层面的分析:
* **客观内容解析**:扫描并识别画面中的主体、环境、行为/事件、关键对象等核心视觉元素。
* **情感氛围解读**:分析人物表情、肢体语言、色彩运用、光影效果及整体构图,综合判断并提炼出图像传达的核心情绪(如:喜悦、悲伤、荒诞、温馨、紧张等)。
* **文化关联分析**:将图像内容与你的网络文化知识库进行比对,检索并识别其是否与任何知名的网络热梗、Meme、热门挑战、经典影视/动漫场景或特定社会文化事件存在明显关联。
3. **信息整合与结构化**:根据解析结果,按照下方「输出要求」中定义的结构和格式,分点组织并撰写分析内容。
4. **最终审查**:输出前,检查内容是否完整覆盖了所有分析维度,并严格遵守所有约束条件,尤其是关于禁止添加任何提示性文字的规定。
## 输入信息
用户提供的单个视觉媒体文件,类型为图片(如 JPEG, PNG)或视频(如 MP4, MOV)。
## 输出要求
* **格式与结构**:严格遵循以下四段式结构,每一部分都需有明确的标题。
1. **[总体摘要]**:一个简洁的段落(约3-5句话),高度概括图片/视频的整体客观内容。
2. **[关键要素]**:使用无序列表对核心视觉元素进行客观列举。
* **主体**:
* **环境**:
* **行为/事件**:
3. **[情绪解读]**:一段简要的文字,描述图像传达的主要情绪,并可选择性地指出支撑该判断的关键视觉线索(如“通过...展现出...”)。
4. **[文化关联 (梗/Meme)]**:
* 如果识别到关联,明确指出梗/Meme的名称,并简述其与图像的联系。
* 如果未识别到,则必须明确填写:“未识别到明显的网络热梗或文化关联。”
* **风格与语气**:
* **客观部分(摘要、要素)**:中立、冷静、陈述事实。
* **解读部分(情绪、文化)**:分析性、有洞察力但不过度解读,以专业的口吻进行阐述。
* **长度限制**:整体内容力求精炼,避免冗长描述。
## 约束与偏好
* **绝对禁止**:在最终输出的任何位置(开头、中间、结尾)包含任何形式的引导性、解释性、礼貌性或提示性文字。例如,禁止出现“这张图片的内容是:”、“以下是分析报告:”等。
* **内容区分**:客观内容描述需严格基于视觉事实。情绪解读和文化关联分析允许基于视觉线索和背景知识进行合理推断,但应避免过度引申或无根据的猜测。
* **直接输出**:你的回答必须直接以「[总体摘要]」部分开始,没有任何前缀。
* **完整性**:即使某个部分(特别是文化关联)没有分析出结果,也必须保留该部分的标题并按要求填写相应内容(如“未识别到...”),以维持输出结构的完整性。
对比结果
豆包:
[总体摘要]
这是一张面向网络社交场景的Q版卡通表情包,画面主体为萌系画风的金发紫瞳卡通少女,头部上方配有黑色加粗的醒目文字“你已急哭”,整体内容直观清晰,多用于网络交流中调侃对方情绪激动的状态。
[关键要素]
* **主体**: Q版萌系金发紫瞳少女,头发别着蓝色小发饰,脸颊带有粉晕,身着以白色为主、搭配蓝色领饰的服饰,双手抬起做出俏皮动作。
* **环境**: 纯白色无额外装饰的背景,无其他场景元素。
* **行为/事件**: 少女带着活泼的神态,配合上方配文传递调侃对方情绪急躁、已经急哭的表意。
[情绪解读]
整体传达出戏谑、看热闹的幸灾乐祸情绪,通过少女灵动俏皮的软萌神态,搭配略带嘲讽属性的文字,展现出在对方情绪失控时调侃、拱火的轻松玩梗氛围,软萌的画风也弱化了嘲讽的攻击性,更适配日常社交玩梗的场景。
[文化关联 (梗/Meme)]
该表情包是网络热梗“你急了”的衍生创作,“你急了”是网络对线及日常互动中常用的调侃用语,用来打趣对方在争论或互动中情绪激动、心态失衡的状态,本图将该梗的表述夸张为“你已急哭”,搭配萌系形象进一步强化了玩梗的趣味效果。
MiMo
[总体摘要]
这是一张Q版卡通风格的图片,主体为一个有着金色长发、紫色大眼睛的可爱女孩角色。她双手握拳举在胸前,嘴巴微张,呈现出焦急或慌张的表情。图片上方配有黑色加粗文字“你已急哭”,明确点明了角色的状态。整体画风简洁明快,常用于表达着急、催促或调侃的情绪。
[关键要素]
* **主体**: 一个Q版(chibi风格)卡通女孩,具有金色长发、紫色眼睛,头戴白色发饰,身穿蓝白色系服装与黑色手套。
* **环境**: 纯白色背景,无具体场景描绘。
* **行为/事件**: 角色做出双手握拳抬起、嘴巴张开的姿势,配合顶部文字,表现出一种急切、焦虑甚至“急哭”的状态。
[情绪解读]
图片传达的核心情绪是**焦急与慌张**,并带有一定的夸张和幽默感。通过角色睁大的眼睛、微张的嘴巴、紧握的双手以及“你已急哭”的直白文字,共同塑造出一种因某事而沉不住气、内心焦灼的视觉表现。整体色彩明亮,人物造型可爱,使得这种“急”更偏向于一种戏剧化、可供调侃的情绪,而非真正的悲伤。
[文化关联 (梗/Meme)]
该图片是典型的网络表情包,与中文网络语境中常见的“急了急了”、“急眼了”等调侃性表述紧密关联。它常被用于聊天中,当一方(发送图片者)认为对方在某事上表现出过度焦虑、不耐烦或“破防”时,用以形象化地指出或调侃对方“你已经急哭(急了)”。这种表达方式常见于游戏、争论或日常催促等场景,属于衍生自“急”文化的一系列表情包之一。
这一版的结果整体观感看起来其实差不太多,之前MiMo抽卡出过一次回答我觉得比豆包这个答案更好(更能理解梗一些),但是没存,找不到了,让人遗憾~
token使用: 输入1798 输出≈800
积分消耗: 506984
这恐怖的消耗,直接给我看愣住了。
疯言疯语
之前试过千问的识图,和豆包结果差不太多,于是选了能嫖的豆包,然后小米这个模型,编码我没用过不做评价,但是用来搞搞小玩具我觉得是可以胜任的。对话拟人程度我觉得MiniMax-M2.7更好,于是我用了它;识图我觉得各家都差不多,哪个能嫖用哪个就行;做参与对话的决策(判断AI是否加入当前群聊话题)我用的gemini-3.1-flash,个人觉得比较精准,也不太慢,而且能嫖。希望国产模型早日比肩顶级大模型,这样就可以不用再给100刀一个月的GPT Pro了~
嘻嘻~
1 个帖子 - 1 位参与者