Skip to main content
Open on GitHub

Diffbot

Diffbot 是一套基于机器学习的产品,可以轻松地组织和集成网络数据。

安装和设置

获取免费的 Diffbot API 令牌遵循这些说明 来验证您的请求。

文档加载器

Diffbot 的 Extract API 是一项服务,可以组织和规范化网页数据。

与传统的网络抓取工具不同,Diffbot Extract 在读取页面内容时不需要任何规则。它使用计算机视觉模型将页面归类为 20 种可能类型之一,然后将原始 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的 基于类型的本体,这使得使用相同的模式从多个不同的网络源提取数据变得容易。

请参阅 用法示例

from langchain_community.document_loaders import DiffbotLoader
API Reference:DiffbotLoader

图谱

Diffbot 的 自然语言处理 API 允许从非结构化文本数据中提取实体、关系和语义含义。

请参阅 用法示例

from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer