【开源】【BiliSum】支持多模态理解视频(低成本)并总结图文笔记的桌面应用

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
【开源】【BiliSum】支持多模态理解视频(低成本)并总结图文笔记的桌面应用
【开源】【BiliSum】支持多模态理解视频(低成本)并总结图文笔记的桌面应用
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github.com

GitHub - lycohana/BiliSum: 为 Bilibili、YouTube 及本地视频提供 AI 视频摘要和知识库.AI video...

为 Bilibili、YouTube 及本地视频提供 AI 视频摘要和知识库.AI video summarizer and knowledge base for Bilibili, YouTube and local videos.

新增:图文笔记(VLM理解)

由llm识别视频重点内容/关键画面->截取画面交由多模态模型理解,并入图文笔记

IMG6917
(使用多模态理解图片成本会增加些许,日常使用纯文本笔记也足够强大!)

优势亮点

界面美观

类b站主页页面的视频流列表,清晰明了

IMG6918
视频总结摘要,一键导出一图省流
581
文字笔记,图文笔记,思维导图一应俱全
IMG6920
IMG6921

高度自定义

语音转写可用ASR在线服务(硅基流动,注册了免费能用),本地部署语音转写服务,OpenAI协议的语音转写
提示词可完全自定义,打造适合自己的总结风格,也可以优化总结的质量(如果更加优的提示词可以提交贡献!)

更多功能不一一列举

环境友好,支持一键安装cuda转写环境
rag知识库以及llm问答(可选模块,可以一键安装
更多小细节有待发掘:heart:

后续目标

接入更多视频平台,视频收藏夹功能,提示词自定义模板等等
感谢佬友们的使用反馈!

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文