Doctran
Doctran 是一个 Python 包。它使用 LLM 和开源 NLP 库将原始文本转换为干净、结构化、信息密集型的文档,以优化向量空间检索。您可以将
Doctran视为一个黑匣子,混乱的字符串进入,整洁、干净、带标签的字符串出来。
安装和设置
pip install doctran
文档转换器
文档询问器
请参阅 DoctranQATransformer 的用法示例。
from langchain_community.document_transformers import DoctranQATransformer
API Reference:DoctranQATransformer
属性提取器
请参阅 DoctranPropertyExtractor 的用法示例。
from langchain_community.document_transformers import DoctranPropertyExtractor
API Reference:DoctranPropertyExtractor
文档翻译器
请参阅 DoctranTextTranslator 的用法示例。
from langchain_community.document_transformers import DoctranTextTranslator
API Reference:DoctranTextTranslator