Hyperbrowser

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话，并为任何网页抓取需求提供易于使用的解决方案，例如抓取单个页面或爬取整个网站。

主要特点：

即时可扩展性 - 无需担心基础设施问题，即可在几秒钟内启动数百个浏览器会话

轻松集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作

强大的 API - 易于使用的 API，用于抓取/爬取任何网站，以及更多功能

绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和代理轮换

有关 Hyperbrowser 的更多信息，请访问 Hyperbrowser 网站或查看文档，您可以访问 Hyperbrowser 文档。

安装和设置

要开始使用 langchain-hyperbrowser，您可以使用 pip 安装该软件包：

pip install langchain-hyperbrowser

您应该通过设置以下环境变量来配置凭据：

HYPERBROWSER_API_KEY=<your-api-key>

请确保从 https://app.hyperbrowser.ai/ 获取您的 API 密钥。

可用工具

Hyperbrowser 提供了两大类工具，尤其适用于：

网页抓取和从复杂网站提取数据
自动化重复性网络任务
与需要身份验证的 Web 应用程序进行交互
执行跨多个网站的研究
测试 Web 应用程序

Browser Agent 工具

Hyperbrowser 提供了一系列 Browser Agents 工具。目前我们支持

Claude Computer Use
OpenAI CUA
Browser Use

您可以在此处查看更多详细信息：/docs/integrations/tools/hyperbrowser_browser_agent_tools

Browser Use 工具

一个通用浏览器自动化工具，可以通过自然语言指令处理各种 Web 任务。

from langchain_hyperbrowser import HyperbrowserBrowserUseTool

tool = HyperbrowserBrowserUseTool()
result = tool.run({
    "task": "Go to npmjs.com, find the React package, and tell me when it was last updated"
})
print(result)

OpenAI CUA 工具

利用 OpenAI 的 Computer Use Agent 功能进行高级 Web 交互和信息收集。

from langchain_hyperbrowser import HyperbrowserOpenAICUATool

tool = HyperbrowserOpenAICUATool()
result = tool.run({
    "task": "Go to Hacker News and summarize the top 5 posts right now"
})
print(result)

Claude Computer Use 工具

利用 Anthropic 的 Claude 进行复杂的 Web 浏览和信息处理任务。

from langchain_hyperbrowser import HyperbrowserClaudeComputerUseTool

tool = HyperbrowserClaudeComputerUseTool()
result = tool.run({
    "task": "Go to GitHub's trending repositories page, and list the top 3 posts there right now"
})
print(result)

Web Scraping 工具

以下是 Hyperbrowser 可用的 Web Scraping 工具的简要说明。您可以在此处查看更多详细信息：/docs/integrations/tools/hyperbrowser_web_scraping_tools

Scrape 工具

Scrape 工具允许您以 markdown、HTML 或链接格式从单个网页提取内容。

from langchain_hyperbrowser import HyperbrowserScrapeTool

tool = HyperbrowserScrapeTool()
result = tool.run({
    "url": "https://example.com",
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

Crawl 工具

Crawl 工具使您能够从给定的 URL 开始遍历整个网站，并具有可配置的页面限制。

from langchain_hyperbrowser import HyperbrowserCrawlTool

tool = HyperbrowserCrawlTool()
result = tool.run({
    "url": "https://example.com",
    "max_pages": 2,
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

Extract 工具

Extract 工具使用 AI 根据预定义模式从网页中提取结构化数据，非常适合数据提取任务。

from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel

class SimpleExtractionModel(BaseModel):
    title: str

tool = HyperbrowserExtractTool()
result = tool.run({
    "url": "https://example.com",
    "schema": SimpleExtractionModel
})
print(result)

Document Loader

langchain-hyperbrowser 中的 HyperbrowserLoader 类可轻松用于加载任何单个页面或多个页面的内容，以及爬取整个站点。内容可以作为 markdown 或 html 加载。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

高级用法

您可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape，您可以提供单个 URL 或 URL 列表进行抓取。对于 crawl，您只能提供单个 URL。crawl 操作将爬取提供的页面和子页面，并为每个页面返回一个文档。

loader = HyperbrowserLoader(
  urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关支持的参数的更多信息，请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

loader = HyperbrowserLoader(
  urls="https://example.com",
  api_key="YOUR_API_KEY",
  operation="scrape",
  params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

安装和设置​

可用工具​

Browser Agent 工具​

Browser Use 工具​

OpenAI CUA 工具​

Claude Computer Use 工具​

Web Scraping 工具​

Scrape 工具​

Crawl 工具​

Extract 工具​

Document Loader​

高级用法​

附加资源​