搓了个 YouTube 字幕下载的 skills 用来学习语言搭建语料库

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
搓了个 YouTube 字幕下载的 skills 用来学习语言搭建语料库
搓了个 YouTube 字幕下载的 skills 用来学习语言搭建语料库
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


最近在折腾外语学习语料库,关注了几个 YouTuber,但是上面的视频动不动 30 分钟、1 小时,看完整个人都麻了,而且看完也没记不住多少,后来想了想还是先从字幕文本入手,看到感兴趣的先把字幕下载下来,遇到感兴趣的片段再回去看视频,这样一来有的文本 10 分钟就可以扫完一小时的视频内容,效率完全不一样。

于是,我跟我的 Hermes 一起搓了个 skills,输入 YouTube 链接,直接生成带时间戳的 Markdown 文本:

[00:32]
:russia: Привет, сегодня мы поговорим о…
:united_kingdom: Hello, today we’ll talk about…

多语言是 30 秒一个窗口对齐的,不用逐句对照,精听精读够用了。优先支持下载人工字幕,没有的话会下载机翻字幕,然后我们可以批量下一个频道的字幕,下载完成后在 Obsidian 中打开,攒它个几百篇,搭建一个专属于自己的学习语料库。


项目地址:

github.com

GitHub - wanxiao2018/youtube-subtitle-downloader: Download YouTube subtitles and convert to clean...

Download YouTube subtitles and convert to clean Markdown for language learning. Works as Claude Code skill or standalone CLI.

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文