「スクレイピングのコードを毎回書くのがしんどい」と思いながら、また同じような処理を書いていた先週——そのタイミングでGitHubトレンドに上がってきたのが browser-use でした。
ブラウザ操作をAIエージェントに自然言語で指示できるPythonライブラリです。「この検索結果をCSVにして」「このフォームに入力して送信して」みたいなことを、コードを書かずにテキストで伝えるだけで動く。スター数は26,000+(2026年3月時点)で、先月だけで3,000近く増えている急成長リポジトリです。
この記事では実際にインストールして動かしたうえで、個人開発や副業にどう使えるかを具体的に書いていきます。「AIエージェントって聞くけど実際どうなの?」という疑問に答えられる内容にしました。
browser-useとは?何ができるのかを3分で理解する
一言で言うと「AIにブラウザのハンドルを渡せるライブラリ」
browser-useは、LLM(大規模言語モデル)がPlaywrightを通じてChromeブラウザを操作できるようにするPythonライブラリです。要するに「AIエージェントにブラウザを動かさせる」ための橋渡し役。
従来のブラウザ自動化(Selenium、Playwright単体)は、「要素のセレクタを調べてコードを書く」という作業が必要でした。ページ構造が変わるたびにコードが壊れる。それをbrowser-useは「何をしたいか」というテキスト指示で置き換えます。
Selenium・Playwrightとの違い
| 項目 | Selenium / Playwright | browser-use |
|---|---|---|
| 指示方法 | CSSセレクタ・XPath | 自然言語テキスト |
| セットアップ | セレクタの調査が必要 | プロンプトを書くだけ |
| ページ変更への対応 | コード修正が必要 | 自動で対応(精度による) |
| 実行コスト | 低い | API料金がかかる |
| 向いているケース | 安定したサイトの定期処理 | 動的・複雑な操作 |
正直に言うと、同じサイトを毎日同じ操作で自動化するだけなら、Playwrightを直接書いたほうがコストは安い。browser-useが光るのは「複数サイトをまたぐ調査」「操作手順が毎回変わる」「UIが頻繁に変わるサイト」あたりです。
対応しているLLM
- OpenAI(GPT-4o, GPT-4oミニ)
- Anthropic(Claude 3.5 Sonnet, Claude 3.7)
- Google Gemini
- ローカルLLM(Ollama経由)
個人的にはClaude 3.5 Sonnetが一番安定して動いた印象です。複雑なページ構造を読み解く能力が高い。
インストールから初回実行まで:環境構築を10分で終わらせる
前提条件
- Python 3.11以上
- OpenAIまたはAnthropicのAPIキー
Pythonのバージョン確認から。


コメント