Beautiful Soup
Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 包(包括格式不规整的标记,例如未闭合的标签,这也是它名字的由来——“tag soup”)。它为解析后的页面创建一个解析树,可用于从 HTML 中提取数据[3],这对于网页抓取非常有用。
安装和设置
pip install beautifulsoup4
文档转换器
请参阅用法示例。
from langchain_community.document_loaders import BeautifulSoupTransformer