PullMd 加载器
PullMd 是一项将网页转换为 Markdown 格式的服务。
langchain-pull-md包利用此服务,将 URL(尤其是那些通过 React、Angular 或 Vue.js 等 JavaScript 框架渲染的页面)转换为 Markdown,而无需本地渲染。
安装与设置
要开始使用 langchain-pull-md,您需要通过 pip 安装该包:
pip install langchain-pull-md
请参阅用法示例了解详细的集成和使用说明。
文档加载器
langchain-pull-md 中的 PullMdLoader 类提供了一种便捷的方式将 URL 转换为 Markdown。该加载器对于加载现代 Web 应用程序的内容并在 LangChain 的处理能力中使用特别有用。
from langchain_pull_md import PullMdLoader
# 使用 JavaScript 渲染的网页的 URL 初始化加载器
loader = PullMdLoader(url='https://example.com')
# 将内容加载为 Document
documents = loader.load()
# 访问 Markdown 内容
for document in documents:
print(document.page_content)
此加载器支持任何 URL,尤其擅长处理使用动态 JavaScript 构建的网站,使其成为数据处理工作流程中 Markdown 提取的通用工具。
API 参考
有关所有可用功能及 其参数的全面指南,请访问API 参考。