Skip to main content
Open on GitHub

HTML 转文本

html2text 是一个 Python 包,可以将页面上的 HTML 转换为干净、易读的纯 ASCII 文本。

ASCII 文本恰好也是有效的 Markdown(一种文本到 HTML 的格式)。

安装和设置

pip install html2text

Document Transformer

请参阅用法示例

from langchain_community.document_loaders import Html2TextTransformer