LLM Scraperとは？

便利ツール

2024.06.15

LLM Scraperとは？

LLM Scraperとは？

LLM Scraperは、LLMs（Large Language Models）を使用して、任意のウェブページを構造化データに変換するためのTypeScriptライブラリです。

使い方

import { chromium } from 'playwright'
import LLMScraper from 'llm-scraper'
import OpenAI from 'openai'

# ブラウザを起動
const browser = await chromium.launch()

# LLMプロバイダーを初期化
const llm = new OpenAI()

# 新しいLLMScraperを作成
const scraper = new LLMScraper(browser, llm)

# スキーマを定義
const schema = z.object({
  top: z.array(
    z.object({
      title: z.string(),
      points: z.number(),
      by: z.string(),
      commentsURL: z.string(),
    })
  ).length(5)
  .describe('Top 5 stories on Hacker News'),
})

# スクレイピングするURL
const urls = ['https://news.ycombinator.com']

# スクレイパーを実行
const pages = await scraper.run(urls, {
  model: 'gpt-4-turbo',
  schema,
  mode: 'html',
  closeOnFinish: true,
})

# 結果を出力
for await (const page of pages) {
  console.log(page.data)
}