如何加载 HTML

超文本标记语言（HyperText Markup Language），简称 HTML，是为能在网页浏览器中显示而设计的文档的标准标记语言。

本指南介绍了如何将 HTML 文档加载到 LangChain 的 Document 对象中，以便我们在后续流程中使用。

解析 HTML 文件通常需要专门的工具。在这里，我们演示了通过 Unstructured 和 BeautifulSoup4 进行解析，这些工具都可以通过 pip 安装。您可以访问集成页面，查找与 Azure AI Document Intelligence 或 FireCrawl 等其他服务的集成。

使用 Unstructured 加载 HTML

%pip install unstructured

from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)

API Reference:UnstructuredHTMLLoader

[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用 BeautifulSoup4 加载 HTML

我们也可以使用 BSHTMLLoader 来加载 HTML 文档。它会将 HTML 中的文本提取到 page_content 中，并将页面标题提取为 title 放到 metadata 中。

%pip install bs4

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)

API Reference:BSHTMLLoader

[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

使用 Unstructured 加载 HTML​

使用 BeautifulSoup4 加载 HTML​

使用 Unstructured 加载 HTML

使用 BeautifulSoup4 加载 HTML