𝕏 f B! L
案件・求人数 12,345
案件を探す(準備中) エージェントを探す(準備中) お役立ち情報 ログイン
案件・求人数 12,345
AWS Nova Actでブラウザ自動化エージェントを構築する方法

AWS Nova Actでブラウザ自動化エージェントを構築する方法

AWS Nova Actブラウザ自動化AIエージェントテスト自動化
目次
⚡ 3秒でわかる!この記事のポイント
  • Nova ActはAIがWebブラウザを人間のように操作するAWSの新サービス
  • 従来のSelenium/Playwrightと違い、CSSセレクタ不要で動的UIに強い
  • Bedrock AgentCoreとの連携で大規模ブラウザ自動化の運用管理が容易

AWSが2026年にリリースしたNova Actは、AIモデルがWebブラウザを人間のように操作する「ブラウザ自動化エージェント」を構築できる新サービスです。従来のSeleniumやPlaywrightとは根本的に異なるアプローチで、自然言語の指示だけで複雑なWeb操作を自動化できます。

この記事では、Nova Actのセットアップから実践的なユースケース、プロダクション運用までを解説します。

この記事でわかること
  • Nova Actの仕組みと従来ツールとの違い
  • Python/TypeScript SDKでの基本操作
  • 5つの実践ユースケース
  • Bedrock AgentCoreとの連携方法
  • 信頼性・スケーリング・セキュリティの運用ノウハウ

AWS Nova Actとは — ブラウザ操作AIエージェントの新標準

Nova Actは、Amazon独自のNova 2 Liteモデルをベースに構築されたブラウザ操作AIサービスです。Webページのスクリーンショットを理解し、人間と同じようにクリック・入力・スクロールなどの操作を自律的に実行します。

Nova 2 Liteモデルベースのアーキテクチャ

Nova Actの内部アーキテクチャは以下の構成です:

  1. ブラウザエンジン: Chromiumベースのヘッドレスブラウザ
  2. ビジョンモデル: Nova 2 Liteによるスクリーンショット解析
  3. アクションプランナー: 自然言語の指示を操作手順に分解
  4. 実行エンジン: Playwright互換のブラウザ操作API
  5. フィードバックループ: 操作後の画面を再解析し次の操作を決定

従来のSelenium/Playwrightとの違い

特性Selenium/PlaywrightAWS Nova Act
要素指定CSSセレクタ/XPath(壊れやすい)自然言語(UIに依存しない)
動的UI対応SPA対応に追加コード必要AIが動的変化を自動認識
メンテナンスUI変更のたびにテスト修正自然言語は変更不要
セットアップブラウザドライバー管理が煩雑SDK導入のみ
実行速度高速やや低速(AI推論分)
コスト無料(OSS)API利用料が発生

Nova Actは従来ツールを置き換えるものではなく補完するものです。高速な定型テストはPlaywrightで、動的UIや複雑な操作フローはNova Actで、という使い分けが最適です。

Nova Act vs 従来ブラウザ自動化の比較

Nova Actのセットアップと基本操作

AWS アカウント設定とIAMポリシー

Nova Actを使用するには、以下のIAMポリシーが必要です。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "nova-act:CreateSession",
        "nova-act:ExecuteAction",
        "nova-act:GetSessionStatus",
        "nova-act:TerminateSession"
      ],
      "Resource": "*"
    }
  ]
}

Python SDK / TypeScript SDKのインストール

# Python SDK
pip install aws-nova-act

# TypeScript SDK
npm install @aws-sdk/client-nova-act

最初のブラウザ自動化タスクを実行

from nova_act import NovaAct

# セッション作成
with NovaAct(starting_page="https://example.com") as nova:
    # 自然言語で操作を指示
    result = nova.act("検索バーに'AWS Lambda'と入力して検索ボタンをクリック")
    
    # 操作結果の確認
    print(f"成功: {result.success}")
    print(f"スクリーンショット: {result.screenshot_path}")
    
    # 次の操作
    result = nova.act("最初の検索結果のリンクをクリック")

自然言語で操作を指示するだけで、Nova Actが適切なUI要素を認識してクリック・入力などの操作を実行します。

実践ユースケース5選

Webスクレイピング × データ収集パイプライン

従来のスクレイピングツール(BeautifulSoup、Scrapy)ではJavaScriptレンダリングやログイン認証が必要なサイトの対応が困難でした。Nova Actなら自然言語で指示するだけです。

with NovaAct(starting_page="https://job-board.example.com") as nova:
    nova.act("ログインフォームに[email protected]とpassword123を入力してログイン")
    nova.act("'バックエンドエンジニア'で検索")
    
    jobs = []
    for page in range(1, 6):
        result = nova.act("現在のページの求人一覧から、タイトル・企業名・年収を全て抽出してJSON形式で返して")
        jobs.extend(result.parsed_response)
        nova.act("次のページに移動")
    
    print(f"収集した求人数: {len(jobs)}")

フォーム入力・データエントリの自動化

手動でのデータ入力作業を完全自動化できます。

import csv

with NovaAct(starting_page="https://crm.example.com/login") as nova:
    nova.act("管理者アカウントでログイン")
    
    with open("customers.csv") as f:
        for row in csv.DictReader(f):
            nova.act(f"新規顧客登録画面に移動し、名前: {row['name']}, メール: {row['email']}, 電話: {row['phone']} を入力して保存")

E2Eテスト自動化(動的UI対応)

SPAやReactアプリの動的に変化するUIのテストに威力を発揮します。

with NovaAct(starting_page="http://localhost:3000") as nova:
    # テストシナリオを自然言語で記述
    nova.act("ダッシュボードにログイン")
    nova.act("左メニューから'プロジェクト管理'を選択")
    nova.act("'新規プロジェクト'ボタンをクリックし、名前に'テストPJ'と入力して作成")
    
    # 検証
    result = nova.act("プロジェクト一覧に'テストPJ'が表示されていることを確認")
    assert result.success, "プロジェクト作成の検証に失敗"

競合サイト監視エージェント

定期的に競合サイトの価格や製品情報をチェックするエージェントを構築できます。

SaaS管理タスクの自動化

APIが提供されていないSaaS管理画面の操作を自動化します。

Bedrock AgentCoreとの連携

AWS Bedrock AgentCoreと連携することで、Nova Actエージェントのライフサイクル管理とガバナンスを実現できます。

エージェントのライフサイクル管理

AgentCoreを使うことで、Nova Actエージェントの作成・実行・監視・終了を一元管理できます。

import boto3

agentcore = boto3.client('bedrock-agentcore')

# エージェント定義の作成
response = agentcore.create_agent(
    agentName='web-scraper-agent',
    agentResourceRoleArn='arn:aws:iam::123456789:role/NovaActAgentRole',
    instruction='求人サイトから情報を収集するブラウザ自動化エージェント',
    foundationModel='amazon.nova-2-lite'
)

ポリシー制御とガードレール設定

本番環境では、Nova Actの操作範囲を制限するガードレールが不可欠です。

  • URLホワイトリスト: アクセス可能なドメインを制限
  • 操作制限: 購入ボタンのクリックなど特定操作の禁止
  • セッション時間制限: 無限ループ防止のためのタイムアウト設定

信頼性とスケーリング

リトライ戦略とエラーハンドリング

ブラウザ操作は不安定になりやすいため、堅牢なエラーハンドリングが重要です。

from nova_act import NovaAct, NovaActError
import time

def reliable_act(nova, instruction, max_retries=3):
    for attempt in range(max_retries):
        try:
            result = nova.act(instruction)
            if result.success:
                return result
        except NovaActError as e:
            print(f"リトライ {attempt + 1}/{max_retries}: {e}")
            time.sleep(2 ** attempt)  # 指数バックオフ
    raise Exception(f"最大リトライ回数超過: {instruction}")

Step Functionsとの連携による大規模運用

AWS Step Functionsと連携することで、数百〜数千のブラウザ自動化タスクを並列実行し、管理できます。

コストとパフォーマンスの最適化

Nova Actの利用料金は以下の要素で決まります。

要素単価(目安)最適化方法
セッション作成$0.01/セッションバッチ処理でセッション数を最小化
アクション実行$0.005/アクション複雑な操作を1つの指示にまとめる
スクリーンショット$0.002/枚検証時のみスクリーンショットを取得
セッション保持$0.001/分不要なセッションは即座に終了

AWSの料金計算ツールで月間コストを事前に見積もっておくことをおすすめします。

セキュリティ — 認証情報管理とネットワーク制御

ブラウザ自動化ではログイン情報を扱うため、セキュリティ対策が極めて重要です。

  1. Secrets Manager: ログイン情報はAWS Secrets Managerで管理(ハードコード禁止)
  2. VPC内実行: Nova ActセッションをVPC内で実行し、外部アクセスを制限
  3. CloudTrail監査: 全てのNova Act APIコールをCloudTrailで記録
  4. IAM最小権限: 必要な操作のみを許可するIAMポリシー
  5. セッション暗号化: 転送中・保存中のデータを暗号化

まとめ — Nova Actで始めるインテリジェント自動化

AWS Nova Actは、ブラウザ自動化のパラダイムを大きく変えるサービスです。

  • 自然言語操作: CSSセレクタ不要で、誰でもブラウザ自動化を構築可能
  • 動的UI対応: SPAやReactアプリのテストもAIが自動対応
  • AWS統合: Bedrock AgentCore、Step Functions、Secrets Managerとの連携
  • スケーラビリティ: 数千タスクの並列実行が可能

SESエンジニアにとって、Nova Actスキルは「RPA×AI」領域の高単価案件を獲得するための強力な武器になります。AWS Bedrockの生成AI案件と合わせてスキルアップしましょう。

まずは無料利用枠内でシンプルなスクレイピングタスクから試してみてください。Nova Actのインテリジェントな操作能力を体感すれば、自動化の発想が大きく広がるはずです。

関連記事:

SES案件をお探しですか?

SES記事をもっと読む →
🏗️

SES BASE 編集長

SES業界歴10年以上のメンバーが在籍する編集チーム。SES企業での営業・エンジニア経験、フリーランス独立経験を持つメンバーが、業界のリアルな情報をお届けします。

📊 業界データに基づく記事制作 🔍 IPA・経済産業省データ参照 💼 SES実務経験者が執筆・監修