CoNLL-U
CoNLL-U 是 CoNLL-X 格式的修订版本。注释被编码在纯文本文件中(UTF-8,UTF-8 编码,NFC 规范化,仅使用 LF 字符作为换行符,并在文件末尾包含一个 LF 字符),包含三种类型的行:
- 词行,包含一个词/标记的注释,共 10 个字段,字段间用单个制表符分隔;如下所示。
- 空行,标记句子边界。
- 注释行,以井号(#)开头。
这是加载 CoNLL-U 格式文件的示例。整个文件被视为一个文档。示例数据(conllu.conllu)基于标准的 UD/CoNLL-U 示例之一。
from langchain_community.document_loaders import CoNLLULoader
API Reference:CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]
Related
- Document loader conceptual guide
- Document loader how-to guides