AIとの会話をAIが整形しているので、上から目線な腹の立つ文章になっております
結論
無料ならもちろんBrave一択。今月は上限に達してしまったので代替を調査。
大量でなければ無料のDuckDuckGo Search。
2500回こっきりAI的最適解はSerper.dev。
私的最適解はTavily(課金)。
意外と検索をしてくれるGemini CLIは今回は調査対象外。
何をしたかったか
- 目的: 日本国内の「⚪︎⚪︎ △△」という日本語検索ワードでWebページ大量収集
- 対象数: 推定2,000〜3,000件
- 環境: Pythonを利用
主要な検索API比較
| API名 | ページネーション | 無料枠 | 1,000件あたりの概算費用 | 日本語精度 | レートリミット |
|---|---|---|---|---|---|
| Google Custom Search | 対応 (100件/回) | 100件/日 | $5 (1万件まで) | 高(純正) | 100/日(要拡張設定) |
| Bing Web Search | サービス終了 | - | - | - | (2025年8月に廃止) |
| Brave Search API | 対応 (20件/回) | $5分/月 | $5 | 中〜高 | 約100リクエスト/秒 |
| SerpApi | 対応 (100件/回) | 100件/月 | $15.0 | 極めて高い | 20リクエスト/秒 |
| Serper.dev | 対応 (100件/回) | 2,500件 | $1.0 | 高(Google準拠) | 300リクエスト/秒 |
| SearchApi.io | 対応 (100件/回) | 100件 | $4.0 | 高 | 柔軟 |
AI特化型API比較
| API名 | ページネーション | 料金(1,000件あたり) | 特徴・激安ポイント | 日本語網羅性 |
|---|---|---|---|---|
| Tavily Search | `max_results` 指定 | $0.30 | AI向けに最適化。ノイズが少ない。 | 高 |
| Serper.dev | `page` 指定 | $1.00 | Googleの生データ。無料枠2,500件。 | 最高 |
| Exa (旧Metaphor) | `offset` 指定 | $1.00 | 意味検索が可能。「募集ページ」を概念で探せる。 | 中〜高 |
| Jina Reader / Search | `offset` 指定 | $0.10程度 | 検索+全文スクレイピングがセットで格安。 | 中 |
| Firecrawl | `page` 指定 | $1.00 | 検索からmarkdown変換まで一括。収集効率が高い。 | 高 |
分かったこと
- 既存ツールの限界: DuckDuckGo Search(ddgs)を使用していたが、オフセット(ページネーション)指定ができない。一度の上限あり。
- 結果の重複: 同じ検索結果が返ってしまい、3,000件規模の網羅的な収集が困難
- Google Custom Searchの現状: 2026年1月より新規のウェブ全体検索が不可(サイト内検索に限定)。既存ユーザーも2027年1月に廃止予定
- Serper.devの優位性: Googleの検索結果(`gl=jp`, `hl=ja`)をそのまま低価格で叩ける。今回の3,000件規模なら無料枠+αで完結する
- AI特化型APIの台頭: TavilyやExaは、従来のキーワードマッチングだけでなく、AIによるフィルタリングや意味ベースの検索が可能