Writer PDF 解析器

本 Notebook 提供了 Writer PDFParser 文档加载器的快速入门指南。

Writer 的 PDF 解析器可将 PDF 文档转换为文本或 Markdown 等其他格式。当您需要提取和处理 PDF 文件中的文本内容以进行进一步分析或集成到工作流程中时，这尤其有用。在 langchain-writer 中，我们提供了将 Writer 的 PDF 解析器作为 LangChain 文档解析器使用。

概述

集成详情

类	包	本地	可序列化	JS 支持	包下载	包最新版本
PDFParser	langchain-writer	❌	❌	❌

设置

PDFParser 可在 langchain-writer 包中使用：

%pip install --quiet -U langchain-writer

凭证

import getpass
import os

if not os.getenv("WRITER_API_KEY"):
    os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your Writer API key: ")

设置 LangSmith 以获得一流的可观察性也很有帮助（但非必需）。如果希望这样做，可以设置 LANGSMITH_TRACING 和 LANGSMITH_API_KEY 环境变量：

# os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

实例化

接下来，实例化 Writer PDF Parser 并指定所需的输出格式：

from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

用法

有两种使用 PDF 解析器的方法：同步或异步。在任何一种情况下，PDF 解析器都会返回一个 Document 对象列表，每个对象包含 PDF 文件中一页的解析内容。

同步用法

要同步调用 PDF 解析器，请将一个 Blob 对象传递给 parse 方法，该对象引用您想要解析的 PDF 文件：

from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages

API Reference:Blob

异步使用

要异步调用 PDF 解析器，请将 Blob 对象传递给 aparse 方法，该对象引用您要解析的 PDF 文件：

parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API 参考

如需 PDFParser 所有功能和配置的详细文档，请前往 API 参考。

附加资源

您可以在 Writer 文档中找到有关 Writer 模型（包括成本、上下文窗口和支持的输入类型）以及工具的信息。

概述​

集成详情​

设置​

凭证​

实例化​

用法​

同步用法​

异步使用​

API 参考​

附加资源​

概述

集成详情

设置

凭证

实例化

用法

同步用法

异步使用

API 参考

附加资源