Skip to main content
Open on GitHub

Hyperbrowser

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话,并为任何网页抓取需求提供易于使用的解决方案,例如抓取单个页面或爬取整个网站。

主要特点:

  • 即时可扩展性 - 无需担心基础设施问题,即可在几秒钟内启动数百个浏览器会话
  • 轻松集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
  • 强大的 API - 易于使用的 API,用于抓取/爬取任何网站,以及更多功能
  • 绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和代理轮换

有关 Hyperbrowser 的更多信息,请访问 Hyperbrowser 网站 或查看文档,您可以访问 Hyperbrowser 文档

安装和设置

要开始使用 langchain-hyperbrowser,您可以使用 pip 安装该软件包:

pip install langchain-hyperbrowser

您应该通过设置以下环境变量来配置凭据:

HYPERBROWSER_API_KEY=<your-api-key>

请确保从 https://app.hyperbrowser.ai/ 获取您的 API 密钥。

可用工具

Hyperbrowser 提供了两大类工具,尤其适用于:

  • 网页抓取和从复杂网站提取数据
  • 自动化重复性网络任务
  • 与需要身份验证的 Web 应用程序进行交互
  • 执行跨多个网站的研究
  • 测试 Web 应用程序

Browser Agent 工具

Hyperbrowser 提供了一系列 Browser Agents 工具。目前我们支持

  • Claude Computer Use
  • OpenAI CUA
  • Browser Use

您可以在此处查看更多详细信息:/docs/integrations/tools/hyperbrowser_browser_agent_tools

Browser Use 工具

一个通用浏览器自动化工具,可以通过自然语言指令处理各种 Web 任务。

from langchain_hyperbrowser import HyperbrowserBrowserUseTool

tool = HyperbrowserBrowserUseTool()
result = tool.run({
"task": "Go to npmjs.com, find the React package, and tell me when it was last updated"
})
print(result)

OpenAI CUA 工具

利用 OpenAI 的 Computer Use Agent 功能进行高级 Web 交互和信息收集。

from langchain_hyperbrowser import HyperbrowserOpenAICUATool

tool = HyperbrowserOpenAICUATool()
result = tool.run({
"task": "Go to Hacker News and summarize the top 5 posts right now"
})
print(result)

Claude Computer Use 工具

利用 Anthropic 的 Claude 进行复杂的 Web 浏览和信息处理任务。

from langchain_hyperbrowser import HyperbrowserClaudeComputerUseTool

tool = HyperbrowserClaudeComputerUseTool()
result = tool.run({
"task": "Go to GitHub's trending repositories page, and list the top 3 posts there right now"
})
print(result)

Web Scraping 工具

以下是 Hyperbrowser 可用的 Web Scraping 工具的简要说明。您可以在此处查看更多详细信息:/docs/integrations/tools/hyperbrowser_web_scraping_tools

Scrape 工具

Scrape 工具允许您以 markdown、HTML 或链接格式从单个网页提取内容。

from langchain_hyperbrowser import HyperbrowserScrapeTool

tool = HyperbrowserScrapeTool()
result = tool.run({
"url": "https://example.com",
"scrape_options": {"formats": ["markdown"]}
})
print(result)

Crawl 工具

Crawl 工具使您能够从给定的 URL 开始遍历整个网站,并具有可配置的页面限制。

from langchain_hyperbrowser import HyperbrowserCrawlTool

tool = HyperbrowserCrawlTool()
result = tool.run({
"url": "https://example.com",
"max_pages": 2,
"scrape_options": {"formats": ["markdown"]}
})
print(result)

Extract 工具

Extract 工具使用 AI 根据预定义模式从网页中提取结构化数据,非常适合数据提取任务。

from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel

class SimpleExtractionModel(BaseModel):
title: str

tool = HyperbrowserExtractTool()
result = tool.run({
"url": "https://example.com",
"schema": SimpleExtractionModel
})
print(result)

Document Loader

langchain-hyperbrowser 中的 HyperbrowserLoader 类可轻松用于加载任何单个页面或多个页面的内容,以及爬取整个站点。 内容可以作为 markdown 或 html 加载。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

高级用法

您可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape,您可以提供单个 URL 或 URL 列表进行抓取。对于 crawl,您只能提供单个 URL。crawl 操作将爬取提供的页面和子页面,并为每个页面返回一个文档。

loader = HyperbrowserLoader(
urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关支持的参数的更多信息,请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-waithttps://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

loader = HyperbrowserLoader(
urls="https://example.com",
api_key="YOUR_API_KEY",
operation="scrape",
params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

附加资源