Skip to main content
Open on GitHub

Doctran

Doctran 是一个 Python 包。它使用 LLM 和开源 NLP 库将原始文本转换为干净、结构化、信息密集型的文档,以优化向量空间检索。您可以将 Doctran 视为一个黑匣子,混乱的字符串进入,整洁、干净、带标签的字符串出来。

安装和设置

pip install doctran

文档转换器

文档询问器

请参阅 DoctranQATransformer 的用法示例

from langchain_community.document_transformers import DoctranQATransformer
API Reference:DoctranQATransformer

属性提取器

请参阅 DoctranPropertyExtractor 的用法示例

from langchain_community.document_transformers import DoctranPropertyExtractor

文档翻译器

请参阅 DoctranTextTranslator 的用法示例

from langchain_community.document_transformers import DoctranTextTranslator
API Reference:DoctranTextTranslator