【求助】如何让 openclaw 直接读取音视频联合输入，从而使用mimo-omni 的音视频理解能力

编辑部 2026-05-04T16:45:14.231185 18328 阅读 tech

我搞了 mimo 的 token plan，看到他家 mimo-omni 有音视频理解能力，想让 openclaw 直接看带音频的视频，目前没找到解决方法，求各位佬给看看目前我问 openclaw 如何能实现，它用 ffmpeg 隔几秒抽一帧，看字幕理解的视频，我感觉这不优雅…… openclaw...

【求助】如何让 openclaw 直接读取音视频联合输入，从而使用mimo-omni 的音视频理解能力

我搞了 mimo 的 token plan，看到他家 mimo-omni 有音视频理解能力，想让 openclaw 直接看带音频的视频，目前没找到解决方法，求各位佬给看看

目前我问 openclaw 如何能实现，它用 ffmpeg 隔几秒抽一帧，看字幕理解的视频，我感觉这不优雅……

openclaw: 通过 yt-dlp 下载视频 → ffmpeg 抽帧 → 我直接看图理解。不过音频转录这块我还没装语音识别工具（FunASR之类的），所以目前主要靠画面上的字幕来理解对话内容。
推荐阅读
[生活] 城巴佬——城市中产在消费劳动表演

推荐阅读
[分享发现] 现在这个形势，推荐备一个 CMHK 的流量卡

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

求助如何 openclaw 直接读取一个帖子使用

【求助】如何让 openclaw 直接读取音视频联合输入，从而使用mimo-omni 的音视频理解能力

[生活] 城巴佬——城市中产在消费劳动表演

[分享发现] 现在这个形势，推荐备一个 CMHK 的流量卡

相关推荐