Gen AI Leader合格への道#6:AIエージェントの基本とGoogle Cloudでの開発基盤


本記事は、2025年5月14日(米国時間)に一般提供が開始されたGoogle CloudのGenerative AI Leader認定資格を取得するために必要となる知識を紹介するシリーズです。本連載は以下の内容に分かれています。本連載の目的や試験概要については「Gen AI Leader合格への道#1:試験概要と学習ロードマップ」を参照してください。

1. はじめに:AIエージェントがもたらす変革の具現化

今日のビジネス環境では、標準アプリケーションでは対応しきれない組織固有のニーズに対し、カスタムソリューションが不可欠です。この課題の強力な答えが、目覚ましい進化を遂げた生成AIエージェントです。エージェントは、言葉の意味や意図を理解し、RAG(検索拡張生成)といった技術で外部情報から正確な応答を生成できます。ツールを駆使し自律的に行動することで、複雑な目標達成を可能にするカスタムソリューションとして、組織の業務プロセスを効率化し、生産性を飛躍的に向上させる可能性を秘めています。
本記事では、カスタム生成AIエージェントの基本概念から、それを支える主要技術、そしてGoogle Cloudでの開発基盤に焦点を当てます。Gen AI Leaderとして変革を加速させましょう。

2. Gen AIエージェントの基本を理解する

標準アプリケーションだけでは対応しきれないカスタムニーズに応える強力なソリューションとして、今、生成AIエージェントが注目されています。では、このAIエージェントとは具体的にどのようなもので、どのように機能するのでしょうか。この章では、その基本的な概念と主要な構成要素を掘り下げていきます

・エージェントの進化:決定論的から自律的へ

バーチャルエージェントの概念は以前からありましたが、初期の決定論的エージェント(Deterministic agents)は、ルールに基づき常に同じ出力を返すため、複雑な問いには対応できませんでした。この状況を一変させたのが、生成AIの登場です。生成AIを組み込んだエージェントは、言葉の意味やユーザーの意図を深く理解できるよう進化しました。さらに、RAG(Retrieval Augmented Generation:検索拡張生成)技術により、外部情報から最新かつ正確な情報を取得し、ハルシネーション(幻覚)を軽減しながら応答を生成する能力を獲得しています。
現在のAIエージェントは、決定論的な機能と生成的な機能を組み合わせたハイブリッドエージェントとして構築され、厳密な制御と柔軟性を両立しています。この進化を経て、今日の生成AIエージェントは、状況を認識し、利用可能なツールを駆使して自律的に行動し、複雑な目標を達成する能力を備えるに至ったのです。
生成AIとRAGでエージェントは賢く進化しています。

決定論的エージェント:事前に定義されたルールや経路に基づき、同じ入力に対して常に同じ出力を返すシステム。電話の自動応答のように、決められたタスクは実行できるが、柔軟性に欠け、予期せぬ質問には対応できない

・エージェントの主要構成要素

生成AIエージェントがどのように機能するのかを理解するためには、その主要な構成要素を知る必要があります。エージェントは主に以下の3つの要素が連携して動作します

  • ・基盤モデル(Foundational model):エージェントの「脳」となるLLM
    膨大なデータで訓練された数学的構造(アルゴリズム)で構成されており、エージェントの推論、テキスト生成、知識、状況理解、そして次に何をすべきかを「考える」ための能力の基盤となります。モデルの振る舞いは、温度(Temperature)やトークン数(Token count)といったサンプリングパラメータで微調整が可能です。モデル単独ではエージェントのような多段階の行動や環境への適応は行えませんが、エージェントが利用する知的な基盤の重要な一部を担います
  • ・ツール (Tools):エージェントが外部世界と対話する⼿段
    基盤モデルだけでは直接外部とやり取りすることはできませんが、ツールはエージェントが外部と対話し、行動することを可能にする橋渡し役となります。データのアクセスや処理から、ソフトウェアアプリケーション、さらには物理ロボットとの連携まで、その範囲は多岐にわたります。これには、APIに接続する拡張機能 (Extensions)、特定のタスクを実行する関数 (Functions)、情報にアクセスするためのデータストア (Data stores)(データベースやナレッジベースなど)、そして新しい機能を追加するプラグイン (Plugins)などが含まれます。ツールを持つことで、エージェントは外部の情報やサービスに接続し、例えば在庫確認や会議のスケジュール、自動発注など、具体的なアクションを実行できるようになり、単独のAIモデルを超えてより実践的な問題解決を可能にする重要な要素となります
  • ・推論ループ (Reasoning loop):意思決定と行動のプロセス
    これは、エージェントが状況を分析し、行動を計画し、結果に基づいて適応することを可能にする継続的なサイクルで、意思決定と行動の責任を負います。具体的には
    • ♢ 観察(Observe):その環境と現在のタスクに関する情報を収集
    • ♢ 解釈(Interpret):収集した情報を処理し、現在の状況を評価
    • ♢ 計画(Plan):目標を達成するための行動計画を立てる
    • ♢ 行動(Act):計画された行動を実行する

これら3つの要素が連携することで、生成AIエージェントは単なるプログラム以上の能力を発揮し、複雑なタスクを自律的に実行できるようになります

3. LLMを効果的に使う技術:サンプリングパラメータとプロンプトエンジニアリング

Gen AIエージェントの能力は、その「脳」となる基盤モデル(LLM)に大きく依存します。LLMは推論やテキスト生成の基盤を提供しますが、これらのモデルを意図した通りに動作させるためには、特定の技術が不可欠です。この章では、モデルの振る舞いを調整する「サンプリングパラメータ」と、推論能力を強化する「プロンプトエンジニアリング」について解説します

・モデルの動作を調整するサンプリングパラメータ

AIモデルの動作は、プロンプト入力で調整できるサンプリングパラメータという設定によって大きく影響を受けます。これらのパラメータを微調整することで、モデルの出力を特定のニーズに合わせてカスタマイズできます。例えば、より創造的なテキスト生成、簡潔な要約、あるいは特定のトーンの維持などが可能です。Google AI Studioのようなツールでも、これらのパラメータを調整できます

  • ・トークン数 (Token count):応答の長さを制御
    生成される応答の最大長を制御します。テキストは「トークン」という単位で処理され、この数を調整することで応答の長さを制限できます
  • ・温度 (Temperature):ランダム性・創造性を調整
    モデルの「創造性」やランダム性を制御します
    • ♢ 高い温度(例:0.7〜1.0)
      出力はよりランダムで多様になり、創造的で予期せぬ応答が生まれます。新しいアイデアが必要な場合に適していますが、関連性が低くなるリスクもあります
    • ♢ 低い温度(例:0.1〜0.5)
      出力はより焦点が絞られ、決定的で反復可能になります。質問応答や要約のように、簡潔で事実に基づいた回答が求められるタスクに適しています
  • ・Top-p(確率範囲):単語選択の確率範囲を動的に制御
    単語選択の確率範囲を動的に制御するパラメータです。「Top-p(nucleus sampling)」とも呼ばれ、テキスト生成中に考慮される最も可能性の高いトークンの累積確率を表します。値が低いほど焦点を絞った応答に、値が高いほど多様な応答につながります
  • ・安全性設定 (Safety settings):不適切なコンテンツを除外
    モデルの出力から有害または不適切な可能性のあるコンテンツを除外するための設定です。フィルタリングのレベルを調整できます

これらのサンプリングパラメータを適切に調整することで、AIモデルの動作に大きな影響を与え、目的の出力に最適化することができます

・推論能⼒を強化するプロンプトエンジニアリング

Gen AIエージェントのもう一つの重要な側面は、その推論ループです。これはエージェントの「中核」であり、情報を取り込み(Observation)、次に取るべき行動を検討・推論し(Internal reasoning)、適切なツールを選択して行動を決定・実行する(Decision making)という反復的なプロセスを司ります。この推論能力を強化するために、プロンプトエンジニアリング技術が利用されます。これはプログラミングというよりも、論理的な構築作業に近いです。
主要なプロンプトエンジニアリング技術には以下があります

  • ・Chain-of-Thought (CoT):段階的思考を導く技術
    LLMに中間的な推論ステップを含む例を提供することで、人間がそうするように、モデルが問題解決プロセスを段階的に進むように導きます。これにより、推論ループにおける「解釈」や「計画」のプロセスがより構造的かつ論理的になり、複雑な推論タスクの精度と説明可能性を向上させます
  • ・ReAct (Reason and Act):推論(Reasoning)と行動(Act)を組み合わせた技術
    LLMに「脳と両手を与える」ようなもので、問題を考えるだけでなく、それを解決するための行動を取ることを可能にします。思考(Think)、行動(Act)、観察(Observe)、応答(Respond)のサイクルを通じて、推論ループにおける「観察」に基づいて「解釈」し、「計画」を立てて「行動」を実行するという流れが、ツール活用を前提として強化されます。ReActは、動的な問題解決、ハルシネーションの低減、信頼性向上に貢献します
  • ・Metaprompting:プロンプト⾃体を生成・変更または解釈する技術
    これにより、エンドユーザーは簡潔な指示で済み、エージェントの応用範囲が広がります
    これらのプロンプトエンジニアリング技術を推論ループ内で利用することで、エージェントの推論能力は強化され、より正確で信頼性の高い、人間らしい対話につながります。特にReActとCoTは、組み合わせて使用することでさらに強力な結果を生み出すことができます。

    サンプリングパラメータとプロンプトエンジニアリングを理解し活用することは、Gen AIエージェントの性能を最大限に引き出し、組織を変革するカスタムAIエージェントを構築するために不可欠です

4. 信頼できる応答のためのRAG (Retrieval-Augmented Generation)

基盤モデル(LLM)は生成AIエージェントの「脳」として広範な知識を保有しますが、その知識はトレーニングデータに限定されるという課題があります。この限界を克服し、より正確で信頼性の高い応答を生成するために開発された重要な技術が、検索拡張生成 (Retrieval-Augmented Generation = RAG) です

・RAG以前の課題:トレーニングデータに限定された知識

RAG導入以前のLLMは、その知識がトレーニングデータに限定されていました。これにより、新しい情報や変化する状況に動的に対応することが困難でした。RAGがない生成エージェントは、最新ではない、あるいは組織固有ではないトレーニングデータに基づく情報しか提供できないという限界があったのです。これは、複雑な質問に対応できなかった初期の決定論的エージェントと同様の課題を抱えていました

・RAGの仕組み:外部データソースの活用

RAGは、LLMの応答を外部の知識ソースに基づいて強化する画期的な技術です。このプロセスにより、モデルはトレーニングデータを超えた情報にアクセスし、より正確で、関連性の高い、最新の応答を生成できるようになります。RAGは、LLMが受動的に情報を受け取るのではなく、能動的に情報を「引き出す」仕組みと言えます
ユーザーがLLMにクエリを送信した後、RAGがツールと連携する仕組みは以下の通りです

  • ・検索(Retrieval):関連情報をデータストア等から取得
    LLMは検索ツールを活用し、データストア、ベクトルデータベース、検索エンジン、ナレッジグラフなどの多様な外部ソースから関連情報を特定し、取得します
  • ・拡張(Augmentation):取得情報をプロンプトに追加
    取得された情報は、LLMに供給されるプロンプトに組み込まれます。この拡張されたプロンプトには、ユーザーの元のクエリと、外部ソースから取得された関連コンテキストの両方が含まれます
  • ・生成(Generation):拡張プロンプトで応答を生成
    LLMは拡張されたプロンプトを処理し、応答を生成します。プロンプトに外部情報が含まれることで、LLMはより情報に基づいた、正確で文脈に適した応答を生成でき、情報の出典を引用することで透明性と信頼性が向上します
  • ・反復(Iteration):必要に応じた検索の繰り返し (オプション)
    一部のRAGシステムでは、LLMが検索プロセスを反復する場合があります。最初の検索で十分な結果が得られなかった場合、LLMはクエリを洗練したり、別の検索ツールを使用したりして、応答の質と関連性を継続的に向上させます

大規模言語モデル(LLM)の能力と、外部知識にアクセスして処理するRAGの能力を組み合わせることで、より強力で信頼性の高いAIエージェントの構築が可能になります

・RAGにおけるデータストアの役割

RAGワークフローにおいて、データストアは外部知識の主要な供給源として機能します。これはAIエージェントが情報にアクセスするためのツールの一種であり、RAGプロセスの検索ステップで不可欠な役割を果たします。
LLMは検索ツールを介してデータストアにクエリを実行し、ユーザーの要求に関連するドキュメントや情報を取得します。データストアには、内部データベース、構造化・非構造化データ、ベクトルデータベース、ナレッジグラフなど多様な形式の情報が含まれます。データストアを活用することで、RAGシステムはトレーニングデータには含まれない最新の情報や組織固有の知識にアクセスできるようになります。これにより、生成される応答はより正確で、関連性が高く、文脈に即したものとなります。
データストアは、信頼性の高いAIエージェント構築の重要なコンポーネントであり、エージェントの知識管理を担います。また、Vertex AI Searchに見られるグラウンディングの概念は、ハルシネーションを最小限に抑え、応答の信頼性を保証します

5. Gen AIエージェント開発をサポートするGoogle Cloudツール

組織を変革するカスタムAIエージェントを構築する上で、Google Cloudは多様な製品とサービスを提供し、エージェント開発を強力にサポートします。この章では、Google Cloudが提供するモデル試用・開発環境、エージェントツールの種類と活用法、そして関連するGoogle Cloudサービスや事前構築済みAI APIについて解説します

・モデル試⽤と開発環境

Googleは、生成AIモデルAPIへのアクセスと実験を容易にする2つの主要なツールを提供しています。どちらのツールを選択するかは、ニーズと専門知識によって異なります

  • ・Google AI Studio:初⼼者向けの実験・プロトタイピングツール
    Google AI Studioは、開発者、学生、研究者がGeminiモデルを試したり、Gemini Developer APIを使った構築を始めたりできるウェブベースのツールです。使いやすさとアクセシビリティを重視しており、機械学習の専門知識がない幅広い層を対象としています。標準のGoogleアカウントでログインでき、システムの振る舞いやサンプリングパラメータ(温度、Top-pなど)、安全性設定、ツール(Google検索連携など)を調整しながらプロンプトの試行錯誤が可能です。主に初期プロトタイピングや小規模なモデル展開に適しています
  • ・Vertex AI Studio:プロフェッショナル向けの包括的環境
    Vertex AI Studioは、Google Cloudコンソールの一部であり、生成AIモデルの迅速なプロトタイプ作成とテストのためのツールです。プロフェッショナルなデータサイエンティストや機械学習エンジニア向けに設計されており、モデルの構築、トレーニング、デプロイ、管理を包括的に提供します。プロンプトサンプルを使ったモデルテスト、プロンプトの設計・保存、基盤モデルのチューニングが可能で、エンタープライズレベルの機能とGoogle Cloudサービスとの深い統合が特徴です。より広範な機械学習ワークフローや大規模なプロジェクトに適しています

・エージェントツールの種類と活用

AIエージェントは情報の処理に優れるものの、現実世界との直接的なやり取りはできません。そこでツールが重要になり、エージェントと現実世界を繋ぐ橋渡し役となります。ツールはエージェントが情報にアクセスし、行動を実行し、様々なシステムと対話することを可能にします。
エージェントツールは、主に以下の4つのタイプに分類できます

  • ・Extensions (API連携)
    エージェントと外部APIの間の橋渡しをします。APIはソフトウェアが相互作用するためのルールであり、ExtensionsはエージェントがAPIを使用するための標準化された方法を提供します。これにより、外部サービスやデータへのアクセスが簡素化されます。(例:旅行予約のための旅行会社のAPI連携)
  • ・Functions (特定のタスク定義)
    エージェントのツールボックスにある特殊なツールのようなものです。エージェントが実行できる特定のアクションを表し、複雑なロジックをカプセル化して再利用可能にします。(例:「calculate_price」関数による合計費用計算)
  • ・Data stores (情報へのアクセス手段)
    エージェントが情報にアクセスするための手段を提供します。リアルタイムデータ、過去のデータ、ナレッジベースなどが含まれ、エージェントの応答が正確で、関連性があり、最新であることを保証します。RAGワークフローの「検索(Retrieval)」ステップで活用され、内部データベース、ベクトルデータベース、ナレッジグラフ、ウェブサイトなど多様な情報源から関連情報を取得します
  • ・Plugins (機能拡張・統合)
    新しいスキルや統合を追加することで、エージェントの機能を拡張します。これにより、エージェントを特定のニーズに合わせてカスタマイズできます。(例:カレンダーアプリケーションとの連携や決済ゲートウェイとの統合)

これらのツールは、エージェントの中核である推論ループ(Reasoning Loop)と連携して機能します。エージェントはタスクを分析して必要なツールを判断し(推論)、選択したツールを実行し(行動)、その結果(観察)を受け取り、必要に応じてプロセスを繰り返します

6. まとめ:AIエージェントが拓く新たな可能性

本記事では、生成AIエージェントの基本とGoogle Cloudでの開発基盤について解説しました。エージェントが決定論的な段階から、生成AIとRAGの進化により自律的な能力を獲得したことを理解いただけたかと思います。その「脳」であるLLMの振る舞いを調整するサンプリングパラメータや、推論能力を強化するプロンプトエンジニアリングは、エージェントを意図通りに機能させる上で不可欠な技術です。また、信頼性の高い応答を実現するRAGの重要性と、それを支えるデータストアの役割も確認しました。
さらに、Google AI StudioやVertex AI Studioといった開発環境から、Extensions、Functions、Data stores、Pluginsといったエージェントツールまで、Google Cloudが提供する強力な開発基盤についても紹介しました。

次回は、「Gen AI Leader 合格への道#7:AI エージェントで実現する組織変⾰と成功戦略」として、AIエージェントを活⽤したアプリケーション構築の⽅法、顧客エンゲージメント向上や社内業務効率化といった具体的な応⽤例、そして Gen AI導⼊を成功させるための戦略計画について掘り下げていきます