browser-useの使い方:AIエージェントでブラウザ操作を自動化する個人開発者向け実践ガイド

Uncategorized

「スクレイピングのコードを毎回書くのがしんどい」と思いながら、また同じような処理を書いていた先週——そのタイミングでGitHubトレンドに上がってきたのが browser-use でした。

ブラウザ操作をAIエージェントに自然言語で指示できるPythonライブラリです。「この検索結果をCSVにして」「このフォームに入力して送信して」みたいなことを、コードを書かずにテキストで伝えるだけで動く。スター数は26,000+(2026年3月時点)で、先月だけで3,000近く増えている急成長リポジトリです。

この記事では実際にインストールして動かしたうえで、個人開発や副業にどう使えるかを具体的に書いていきます。「AIエージェントって聞くけど実際どうなの?」という疑問に答えられる内容にしました。


browser-useとは?何ができるのかを3分で理解する

一言で言うと「AIにブラウザのハンドルを渡せるライブラリ」

browser-useは、LLM(大規模言語モデル)がPlaywrightを通じてChromeブラウザを操作できるようにするPythonライブラリです。要するに「AIエージェントにブラウザを動かさせる」ための橋渡し役。

従来のブラウザ自動化(Selenium、Playwright単体)は、「要素のセレクタを調べてコードを書く」という作業が必要でした。ページ構造が変わるたびにコードが壊れる。それをbrowser-useは「何をしたいか」というテキスト指示で置き換えます。

Selenium・Playwrightとの違い

項目 Selenium / Playwright browser-use
指示方法 CSSセレクタ・XPath 自然言語テキスト
セットアップ セレクタの調査が必要 プロンプトを書くだけ
ページ変更への対応 コード修正が必要 自動で対応(精度による)
実行コスト 低い API料金がかかる
向いているケース 安定したサイトの定期処理 動的・複雑な操作

正直に言うと、同じサイトを毎日同じ操作で自動化するだけなら、Playwrightを直接書いたほうがコストは安い。browser-useが光るのは「複数サイトをまたぐ調査」「操作手順が毎回変わる」「UIが頻繁に変わるサイト」あたりです。

対応しているLLM

  • OpenAI(GPT-4o, GPT-4oミニ)
  • Anthropic(Claude 3.5 Sonnet, Claude 3.7)
  • Google Gemini
  • ローカルLLM(Ollama経由)

個人的にはClaude 3.5 Sonnetが一番安定して動いた印象です。複雑なページ構造を読み解く能力が高い。


インストールから初回実行まで:環境構築を10分で終わらせる

前提条件

  • Python 3.11以上
  • OpenAIまたはAnthropicのAPIキー

Pythonのバージョン確認から。

コメント

タイトルとURLをコピーしました