【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力

我搞了 mimo 的 token plan,看到他家 mimo-omni 有音视频理解能力,想让 openclaw 直接看带音频的视频,目前没找到解决方法,求各位佬给看看 目前我问 openclaw 如何能实现,它用 ffmpeg 隔几秒抽一帧,看字幕理解的视频,我感觉这不优雅…… openclaw...
【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力
【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力

我搞了 mimo 的 token plan,看到他家 mimo-omni 有音视频理解能力,想让 openclaw 直接看带音频的视频,目前没找到解决方法,求各位佬给看看 :smiling_face_with_three_hearts:

目前我问 openclaw 如何能实现,它用 ffmpeg 隔几秒抽一帧,看字幕理解的视频,我感觉这不优雅……

openclaw: 通过 yt-dlp 下载视频 → ffmpeg 抽帧 → 我直接看图理解。不过音频转录这块我还没装语音识别工具(FunASR之类的),所以目前主要靠画面上的字幕来理解对话内容。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文