YouTube 转录
YouTube 是由 Google 创建的在线视频分享和社交媒体平台。
本笔记本介绍了如何从 YouTube transcripts 加载文档。
from langchain_community.document_loaders import YoutubeLoader
API Reference:YoutubeLoader
%pip install --upgrade --quiet youtube-transcript-api
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=False
)
loader.load()
添加视频信息
%pip install --upgrade --quiet pytube
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=True
)
loader.load()
添加语言偏好
language 参数:一个语言代码列表,按优先级降序排列,默认为 en。
translation 参数:一个翻译偏好设置,您可以将可用的字幕翻译成您喜欢的语言。
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg",
add_video_info=True,
language=["en", "id"],
translation="en",
)
loader.load()
获取带时间戳的字幕块
获取一个或多个 Document 对象,每个对象包含视频字幕的一个块。可以指定块的长度(以秒为单位)。每个块的元数据包含一个 YouTube 视频的 URL,该 URL 将从特定块的开头开始播放视频。
transcript_format 参数:langchain_community.document_loaders.youtube.TranscriptFormat 的值之一。在此情况下为 TranscriptFormat.CHUNKS。
chunk_size_seconds 参数:代表每个字幕数据块的视频秒数。默认为 120 秒。
from langchain_community.document_loaders.youtube import TranscriptFormat
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=TKCMw0utiak",
add_video_info=True,
transcript_format=TranscriptFormat.CHUNKS,
chunk_size_seconds=30,
)
print("\n\n".join(map(repr, loader.load())))
API Reference:TranscriptFormat
YouTube 加载器,来自 Google Cloud
先决条件
- 创建一个 Google Cloud 项目或使用现有项目
- 启用 YouTube API
- 授权桌面应用的凭据
pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib youtube-transcript-api