Gen AI Leader合格への道#3:生成AIの基礎概念


本記事は、2025年5月14日(米国時間)に一般提供が開始されたGoogle CloudのGenerative AI Leader認定資格を取得するために必要となる知識を紹介するシリーズです。本連載は以下の内容に分かれています。本連載の目的や試験概要については「Gen AI Leader合格への道#1:試験概要と学習ロードマップ」を参照してください。

1. はじめに:生成AIの世界へようこそ

生成AIは大規模言語モデル(LLM)の進化により、人間のような自然なテキスト生成や、画像などの新しいコンテンツ創造能力が飛躍的に向上し、一気に普及しました。生成AIは、AIの一分野である機械学習(ML)の中でも、特に「新しいものを創造する」ことに特化した技術です。その核心をなすのが「ディープラーニング」と「基盤モデル」です。
本記事では、生成AIの基本的な概念や専門用語を解き明かし、その全体像を深く理解することを目指します

2. AI、機械学習、そして生成AIとは

AI、機械学習(ML)、そして生成AIは、密接に関連し合う概念です。それぞれの関係性を明確にすることで、生成AIがAI技術全体のどこに位置するのかを深く理解できます

  • ・人工知能(AI):人間のようなタスクをこなす機械
    最も広範な分野です。人工知能(AI)とは、学習、問題解決、意思決定など、人間の知能を必要とするタスクを実行できる機械を構築するという、非常に幅広い領域を指します
  • ・機械学習(ML):データから学習するAIの一分野
    AIのサブセットです。これは、機械がデータから学習(learn from data)することで特定のタスクを達成するためのアプローチを指します。MLモデルは、与えられたデータを分析し、パターンを識別することで、新しい情報が提示された際に、人間が経験に基づいて推測を行うように(MLモデルは確率を用いて)予測や出力を生成します
  • ・生成AI(Gen AI):新しいコンテンツを作成する機械学習の応用
    生成AIはMLのサブセットであり、画像やテキストなどの新しいコンテンツを作成(create new content)することに特化したAIの応用です。生成AIの最大の特徴は、単なる予測ではなく、全く新しいものを創造する能力にある点です。特に2022年からの大規模言語モデル(LLM)の進化と計算能力の向上により、その能力は飛躍的に高まりました
  • ・ディープラーニング
    生成AIの目覚ましい能力を支える主な技術が「ディープラーニング」です。これは強力な機械学習のサブセットで、多層構造を持つ「人工ニューラルネットワーク(artificial neural networks with many layers)」を使用します。このネットワークがデータから非常に複雑なパターンを抽出(extract complex patterns)し、高度な処理や生成を可能にしています
  • ・基盤モデルと大規模言語モデル(LLMs)について
    さらに、生成AIの進化において重要な役割を果たすのが「基盤モデル(Foundation Models)」と呼ばれる強力なMLモデルです。これらは、大量のラベルなしデータ(unlabeled data)で事前に訓練されており、複雑なパターンを学習することで、様々なタスクを実行できる幅広い理解力を持っています。中でも、人間が話す言語を理解し生成するために特化された「大規模言語モデル(LLM)」は、特に注目すべき基盤モデルの一種です

3. AIを動かす「データ」の基礎知識

機械学習(ML)モデル、そしてそれを応用した人工知能(AI)システムが実際に機能するかどうかは、入力されるデータに全てかかっています。データはあらゆるAIシステムの土台であり、その質とアクセスしやすさが効果的なAI開発には不可欠です。

・データとは何か?様々な形態

データは、数字、日付、テキスト、画像、音など、私たちを取り巻く情報と同じように多様な形で存在します。ビジネスにおいては、顧客理解、業務最適化、戦略的意思決定を推進するための貴重な資源です。特に、多様なコンテンツを生み出す生成AIモデルでは、大規模なデータセットがモデルの性能向上に貢献することがよくあります。しかし、単に量が多いだけでなく、データの種類や整理方法、構造もモデルの性能に大きく影響します

・構造化データと非構造化データの違い

データは、その構造によって大きく二つのタイプに分けられます。

  • ・構造化データ(Structured data)
    あらかじめ定義された「型(predefined structure)」を持つデータで、まるで整理整頓されたデジタルファイルキャビネットのように、表形式で規則正しく整理されています。リレーショナルデータベースに保存されることが多く、必要な情報を簡単に検索・利用できます。例としては、顧客ID、購入日、注文費用といった情報や、オンラインショッピングの注文履歴、銀行の明細書などがあります。
  • ・非構造化データ(Unstructured data)
    事前に決められた構造(predetermined structure)を持たないデータです。テキスト文書(PDF、メール、SNS投稿、自由形式の顧客レビュー)、画像(写真、デジタルアート)、音声(録音、音楽ファイル)、動画など、多種多様で、行や列に簡単に整理できないため、より高度な分析技術が必要となります。

・モデル学習におけるデータの重要性①:データ品質

機械学習モデルの性能は、その学習するデータの質と量に完全に依存します。データはAIシステムの基盤であり、その質、アクセスしやすさ、そしてフォーマットは極めて重要です。モデルが既存データに基づいて未来を予測する能力は、データ品質に大きく左右されます。データ品質(Data quality)を考える際には、以下の5つの要素が重要です

  • ・正確性(Accuracy)
    データが不正確であれば、モデルは誤ったパターンを学習し、間違った予測をしてしまいます
  • ・完全性(Completeness)
    データセットのサイズと、そのデータが対象全体をどれだけ代表しているかを指します。正確な予測のためには、十分なサイズと代表性が必要です
  • ・代表性(Representative)
    データが偏りなく全体を反映している必要があります。そうでなければ、偏った結果につながる可能性があります
  • ・一貫性(Consistency)
    データの形式やラベル付けに一貫性がないと、モデルを混乱させ、効果的な学習を妨げてしまいます
  • ・関連性(Relevance)
    AIが実行するように設計されたタスクに、データが直接関連している必要があります

・モデル学習におけるデータの重要性②:データアクセシビリティ

AIシステムがデータを効果的に活用できるかは、データのアクセシビリティ(利用しやすさ)に直結しています。アクセシビリティとは、必要なデータがすぐに利用可能で、使いやすく、高品質であることを意味します。アクセス可能なデータがなければ、どんなに洗練されたアルゴリズムであっても、学習能力や正確な予測を提供する能力には限界があります。アクセシビリティには以下の点が考慮されます。

  • ・可用性(Availability)
    必要なデータがそもそも入手できない場合、AIモデルを訓練することはできません。
  • ・コスト(Cost)
    データの収集とクレンジングには費用がかかる場合があります。
  • ・フォーマット(Format)
    データは、AIモデルが理解し処理できる形式である必要があります。

AIにそのデータを活用して何が可能になるかを理解するためには、自社のデータ、その品質、可用性、フォーマットを深く理解することが不可欠です。

4. 機械学習のサイクルを知る(MLライフサイクル)

機械学習(ML)モデル、そしてそれを応用した人工知能(AI)システムが実際に機能するには、データが鍵となります。しかし、散在するデータから具体的な洞察を得て、効果的なMLシステムを構築・運用するためには、いくつかの重要な段階を踏む必要があります。この一連の流れを「機械学習(ML)ライフサイクル」と呼び、主に以下の段階で構成されます

  • ・ステップ1:データの取り込みと準備(Data ingestion and preparation)
    MLライフサイクルの最初の段階は、データの収集(データインジェストとも呼ばれます)と準備です。これは、モデルのトレーニングに必要な生データを様々なソースから集め、クリーンアップし、適切な形式に変換するプロセスです。効果的なモデル訓練には、達成したい結果に基づいて必要なデータを特定し、それを分析やモデル訓練に使える形に整理・ラベリングすることが重要です
  • ・ステップ2:モデルの学習(Model training)
    次に、収集・準備されたデータを使ってMLモデルを作成するプロセスが、「モデルの学習(訓練)」です。この段階で、データを用いてMLモデルを構築し、データ内のパターンを学習させます
  • ・ステップ3:モデルのデプロイ(Model deployment)
    モデルの訓練が完了したら、その訓練済みモデルを実際に利用可能な状態にするプロセスが「モデルのデプロイ」です。これにより、モデルは予測を生成したり、実際のアプリケーションで機能したりできるようになります
  • ・ステップ4:モデルの管理と維持(Model management)
    MLライフサイクルの最後の段階は、デプロイされたモデルの管理と維持です。これは、モデルのパフォーマンスを継続的に監視し、時間の経過とともにメンテナンスを行うフェーズです。具体的な作業には、モデルのバージョニング、パフォーマンスの追跡、時間の経過に伴う精度変化(ドリフト)の監視、データの管理、そして機械学習タスクの自動化などが含まれます

5. モデルはどうやって学習するのか。機械学習の主要なアプローチ

前節では、機械学習(ML)モデルの構築と運用の流れであるMLライフサイクルについて説明しました。このサイクルの重要なステップの一つが「モデルの学習(訓練)」です。MLモデルの性能はデータの質と量に完全に依存し、そのデータがどのように使われるかは、特定の学習方法によって異なります。機械学習には、主に以下の3つの主要な学習アプローチがあります

  • ・教師あり学習(Supervised learning):ラベル付きデータで予測を学ぶ
    教師あり学習は、ラベル付きデータ(labeled data)を使用する手法です。ラベル付きデータとは、例えば犬の「画像」とそれが「犬である」という情報のように、入力データと正しい出力がペアになった情報のことです。モデルは、これらのペアからパターンや関係性を学習し、新しい未知の入力に対して正確な出力を予測できるようになります。 例えば、画像に写っている動物の種類を特定することや、メールが迷惑メールかどうかを自動で判別することなどが教師あり学習の典型例です。
  • ・教師なし学習(Unsupervised learning):ラベルなしデータでパターンやグループを見つける
    教師なし学習は、ラベルが付けられていない生のデータ(unlabeled data)から、そこに隠された自然なグループ分けやパターンを見つけ出す手法です。事前の指示なしに、データそのものに潜む構造や関連性を発見します。これは、データの探索的分析(Exploratory Data Analysis)と考えることができ、これまで気づかなかった洞察を発見するのに役立ちます。 例えば、顧客の購買履歴から類似した購買習慣を持つ顧客セグメントを自動で見つけ出したり、文書群から主要なトピックを特定したりできます。
  • ・強化学習(Reinforcement learning):試行錯誤とフィードバックで最適な行動を学ぶ
    強化学習は、モデルが環境と相互作用(interact with the environment)しながら、報酬を最大化し、ペナルティを最小化する行動を学習するアプローチです。良い行動には報酬を与え、悪い行動は避けるように学習する様子は、ペットの訓練に似ています。この方法は、明示的な指示やラベル付きデータが利用できない状況で特に役立ちます。 例えば、工場内のロボットが最適な動きを学習し、製品を効率よく組み立てる方法を学ぶケースが挙げられます。ロボットは様々な動作を試行し、その結果からより良い動作を見つけ出し、最も効率的な経路や手順を自律的に見つけ出していきます。

6. 安全で倫理的なAIのために(責任あるAI)

モデルの能力を理解することは重要ですが、それらを開発し、実社会で利用する際には、安全性と倫理的な側面を考慮することが不可欠です。これが「責任あるAI(Responsible AI)」という概念につながります。責任あるAIとは、AIアプリケーションが意図的あるいは非意図的に人や社会に害を与えない(intentional or unintentional harm)よう保証すること。特に、プライバシー保護、誤情報の拡散防止、公平・倫理的な人々の扱いが求められます

・セキュアAI(Secure AI):AIアプリケーションを脅威から守る

セキュアAIとは、AIアプリケーションに意図的な危害が加えられるのを防ぐことです。AIシステムを悪意ある攻撃や誤用(malicious attacks and misuse)から保護することを意味し、開発からデプロイメントまでのライフサイクル全体でセキュリティを確保する必要があります。AIシステムには多様なセキュリティリスクが存在します。
例えば、データ準備段階での「データポイズニング」は、悪意あるデータがモデルの学習を妨げ、誤った予測につながる可能性があります。モデルの学習段階では「モデル盗難(Model theft)」のリスクがあり、デプロイ後は、モデルへの入力データをだます「敵対的攻撃(adversarial attacks)」が大きな脅威となります。これらのリスクに対処するためには、データの保護、モデルと訓練プロセスの保護、そして運用環境でのモデルの保護が不可欠です

・倫理的AI(Ethical AI):AIが悪影響を与えず、適切に使われるようにする

倫理的AIとは、AIアプリケーションが害を引き起こさず、倫理的な方法で使用されることを確実にすることです。潜在的な問題や意図しない結果を深く理解し、AI開発ライフサイクルのあらゆる段階で安全性、セキュリティ、倫理的影響を考慮し、積極的にリスクを軽減することを含みます。
倫理的なAI開発にはいくつかの重要な側面があります。

  • ・透明性(Transparency)
    ユーザーは、自分の情報がどのように使用され、AIシステムがどのように機能するのかを理解できる必要がある
  • ・プライバシー保護(Privacy)
    個人が特定されないようデータを匿名化・仮名化し、AIモデルが訓練データから機密情報を漏洩しないよう安全対策を講じることが重要
  • ・データ品質、バイアス、公平性(Data quality, bias, and fairness)
    AIシステムは既存の社会的バイアスを継承・増幅(inherit and amplify existing societal biases)させる可能性がある。不正確なデータは偏った結果につながるため、公平性をAI開発の核(core principle)とし、データの質と責任ある使用を考慮することが重要
  • ・説明責任と説明可能性(Accountability and explainability)
    AIの行動について誰が責任を負うのかを明確にし、AIがどのように意思決定を行うのかを理解する必要がある。説明可能なAI(Explainable AI)は、モデルの意思決定プロセスを透明化し、信頼構築やエラーのデバッグ、隠れたバイアスの発見に不可欠
  • ・法的な影響(Legal implications)
    AI開発はデータプライバシー、非差別(non-discrimination)、知的財産など、法的な枠組みによって規制が進んでいる。法的なコンプライアンスは、信頼できるAIを構築するために極めて重要 倫理的なAI開発の主な目的は、AIシステムが責任を持って使用され、害を引き起こさないようにすることです。

・AI/MLモデルのリスク管理:セキュアAIフレームワーク(SAIF)

AI/MLモデルは、データ依存性、バイアス、ハルシネーションの可能性、公正性、エッジケースに関する問題など、固有の限界を持っています。これらの課題に対処し、リスクを管理するために、GoogleはセキュアAIフレームワーク(SAIF)を開発しました。
SAIFは、責任あるAIシステムの構築とデプロイに関するセキュリティ標準を確立するための包括的なアプローチです。脅威の発見・阻止、防御の自動強化、そして各AIシステムの固有リスク管理を支援します。SAIFは企業の既存セキュリティと統合されるよう設計されており、AIモデルがデフォルトで安全であることを保証します。
Google Cloudは、SAIFに加え、アプリケーションのライフサイクル全体でセキュリティを確保するための様々なツールも提供しています。これには、セキュア・バイ・デザインのインフラストラクチャ、Identity and Access Management (IAM)、Security Command Center、監視ツールなどが含まれます

7. まとめ

本記事では、生成AIの基礎概念を掘り下げました。AI、機械学習、そして生成AIの関係性、そしてその中核にあるディープラーニングや基盤モデル、LLMの仕組みについて紐解きました。また、AIシステムを動かすデータの重要性、その品質とアクセス性の意味、そしてMLライフサイクルの各段階も概観しました。
さらに、AIを安全かつ倫理的に活用するための「責任あるAI」の概念、セキュリティリスク、そしてGoogleが提供するSAIFのようなフレームワークの重要性にも触れました。これらの基礎知識が、生成AIを理解し、その可能性を最大限に引き出す第一歩となります。

次回は、「Gen AI Leader 合格への道#4:ランドスケープ理解と実践的リソース管理」として、生成AIソリューションを構成するインフラストラクチャ、モデル、プラットフォーム、エージェント、アプリケーションといった各層の役割と相互作用、そしてプロジェクトを成功に導くために不可欠なリソース(人材、コスト、時間)やニーズ(規模、カスタマイズ性、プライバシー、レイテンシーなど)について掘り下げていきます