首页
/
科技 / 【求助】如何让 openclaw 直接读取音视频联合输入,从…
【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力
编辑部
2026-05-04T16:45:14.231185
18328 阅读 tech
我搞了 mimo 的 token plan,看到他家 mimo-omni 有音视频理解能力,想让 openclaw 直接看带音频的视频,目前没找到解决方法,求各位佬给看看 目前我问 openclaw 如何能实现,它用 ffmpeg 隔几秒抽一帧,看字幕理解的视频,我感觉这不优雅…… openclaw...
【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力
我搞了 mimo 的 token plan,看到他家 mimo-omni 有音视频理解能力,想让 openclaw 直接看带音频的视频,目前没找到解决方法,求各位佬给看看 
目前我问 openclaw 如何能实现,它用 ffmpeg 隔几秒抽一帧,看字幕理解的视频,我感觉这不优雅……
openclaw: 通过 yt-dlp 下载视频 → ffmpeg 抽帧 → 我直接看图理解。不过音频转录这块我还没装语音识别工具(FunASR之类的),所以目前主要靠画面上的字幕来理解对话内容。
1 个帖子 - 1 位参与者
阅读完整话题