Skip to main content
Open In ColabOpen on GitHub

Glue Catalog

AWS Glue Data Catalog 是一个集中的元数据存储库,允许您管理、访问和共享有关存储在 AWS 中的数据的元数据。它充当数据资产的元数据存储,使各种 AWS 服务和您的应用程序能够高效地查询和连接到所需的数据。

当您在 AWS Glue 中定义数据源、转换和目标时,有关这些元素的元数据会存储在 Data Catalog 中。这包括有关数据位置、模式定义、运行时指标等信息。它支持各种数据存储类型,例如 Amazon S3、Amazon RDS、Amazon Redshift 以及与 JDBC 兼容的外部数据库。它还直接与 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 集成,允许这些服务直接访问和查询数据。

Langchain GlueCatalogLoader 将以与 Pandas dtype 相同的格式获取给定 Glue 数据库中所有表的模式。

设置

示例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API Reference:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

带有表筛选的示例

表筛选允许您为 Glue 数据库中的特定表子集选择性地检索架构信息。您可以使用 table_filter 参数精确指定您感兴趣的表,而不是加载所有表的架构。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API Reference:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)