はじめに
AWS Ambassadorの安斎です。3年ぶりに米国 ラスベガスで開催されているAWS re:Inventに参加しています!
AWS re:InventとはAWSのクラウドコンピューティングのエキスパートから直接技術や事例を学ぶことができるAWS 最大のラーニングカンファレンスです。AWSのパートナー企業も出展しているため、各ブースを回り製品の情報を入手することができます。
私はオンラインでの参加経験はありましたが、現地参加は初めてです。改めてAWSの凄さを実感しています。世界中に多くのAWSユーザがいて、コミュニティーも沢山あって、とにかくみんながイベントを楽しんで盛り上がっているんです。パブリッククラウドのグローバルシェアNo.1※であるAWSだからこそ、これほど盛り上がるのだと思います。
※Gartner Says Worldwide IaaS Public Cloud Services Market Grew 41.4% in 2021 (2022/06/2)
AWS Partner Ambassadorなので、Keynoteは前から10番目くらいのPriority Seatsから参加させてもらいました。臨場感があり、とても貴重な経験になりました。
Keynoteでは様々なサービスの紹介がありましたが、本レポートではAnalytics関連サービスに焦点を当ててご紹介します。
Analytics関連アップデート
11月29日(米国時間)のKeynoteで発表されたAnalytics関連のアップデートは10個あります。それぞれご紹介していきます。
始めにKeynoteではAWSの膨大なデータの分析に対する考え方が示されました。
AWSが考えるAnalyticsのロードマップは4つの柱で成立しています。
・Right Tools
・Integration
・Governance
・Insights
また、AWSはAnalyticsに関して、ゼロETLを掲げました。
ゼロETLとはサービス間を統合してETL処理(抽出、変換、書き出し)をせずに、データ分析や機械学習をより簡単に実行できるようにするプロセスです。これによりデータストア間でのデータ接続と分析が可能になり、ほぼリアルタイムで分析処理ができるようになります。また、データガバナンスや洞察に関するアップデートもありましたのでそれぞれご紹介します。
1.1. Amazon OpenSearch Serverless(Preview)
Amazon OpenSearch Serviceのサーバレスバージョンがリリースされました。今までAmazon OpenSearch Serviceではドメインと呼ばれるAmazon EC2インスタンスタイプで構成されたクラスターを起動する必要がありましたが、このアップデートによってAmazon EC2を起動することなく、サーバレスでAmazon OpenSearch Serviceを利用できるようになりました。データストレージはAmazon S3を利用し、バースト処理にも対応しているとのことでした。従量課金でコストを抑えて利用でき、自動的にスケールしてくれるのでとても便利ですね。まだプレビュー版ですが東京リージョンも対応しているので使わない手はないと思います!
1.2. Amazon Aurora zero-ETL integration with Amazon Redshift
Amazon Redshift を使用した、ほぼリアルタイムの、Amazon Auroraからのペタバイト規模のトランザクション データの分析と機械学習(ML)が可能になります。
以前はリアルタイムでAmazon AuroraとAmazon Redshiftの接続ができず、Amazon AuroraのデータをエクスポートしてAmazon Redshift SpectrumによってAmazon S3のデータをロードしたり、Amazon Aurora PostgreSQLではFederated Queryを実行してデータをロードしたりする必要がありました。つまりリアルタイムでの処理ができなかったのです。
しかし、今回のアップデートによってAmazon Aurora とAmazon Redshiftの統合が可能になり、ほぼリアルタイムでのデータ分析が可能になりました。これは熱い!
https://aws.amazon.com/jp/about-aws/whats-new/2022/11/amazon-aurora-zero-etl-integration-redshift/
1.3. Amazon Redshift integration for Apache Spark
Amazon RedshiftとAmazon Redshift ServerlessでSparkアプリケーションを簡単に構築、実行できるようになりました。
以前はサードパーティのコネクターを利用してAmazon EMRやAmazon SageMakerと接続する必要がありましたが、コネクターのメンテナンスは不定期で、テストされていないというデメリットがありました。
しかし、今回のアップデートによって、Amazon Redshift上でSparkが実行できるようになり、コネクターも不要になりました!
https://aws.amazon.com/jp/blogs/aws/new-amazon-redshift-integration-with-apache-spark/
1.4. Amazon DataZone
ガバナンスを効かせつつ組織のデータを共有、検索、発見できるサービスです。
Amazon RedshiftやAmazon Athena、AWS Glue等のアクセス管理を統合できます。個々のサービス毎に管理されていたアクセス権が一元化されたイメージです。
https://aws.amazon.com/datazone/
1.5. Amazon QuickSight関連アップデート
Amazon QuickSightでは3つのアップデートがありました。それぞれご紹介していきます!
1.5.1. Operational paginated reports
ビジネスクリティカルデータを含む形式化した個別のレポートが生成できるようになりました。
Amazon QuickSight Paginated Reportsを利用することで、事前にライセンスを用意せず何十万ものエンドユーザにレポートを共有できるようになりました。
1.5.2. ML-powered forecasting with Q
推論の機能が追加されました!
このアップデートにより、アナリストやデータサイエンティストじゃなくても機械学習によって得られた予測を確認ができるようになりました。
しかし、なぜこういった予測になるのか理由が分からないと思う人もいるのではないでしょうか。その理由を解説してくれるサービスをご紹介します。
1.5.3. Why questions with Q
検索バーに質問を入力することで、ML-powered forecasting with Qで得た予測の理由を確認できます。
1.6. Amazon Security Lake
AmazonSecurity Lakeは、AWS CloudTrailやAmazon GuardDuty等から取り込まれたデータをApache Parquet 形式と、Open Cybersecurity Schema Framework(OCSF)と呼ばれる標準のオープンソース スキーマに変換するサービスです。
また、このサービスではAWSのセキュリティ系サービスやVMware、Trend Micro等、サードパーティのサービスからのデータ収集も可能です。
変換したデータはAmazon OpenSearch Service等と連携して可視化することにより、異常を検出したり、セキュリティ系のログを一元的に可視化したりできます。
オンプレミスやサードパーティ製ツール、クラウドリソースのセキュリティ系のログを一元管理できるのはありがたいですね!
https://aws.amazon.com/jp/about-aws/whats-new/2022/11/amazon-security-lake-preview/
1.7. AWS Clean Rooms
分析の対象となるデータを共有や公開することなく、安全かつ簡単にコラボレーションできるようにするサービスです。
このサービスはクエリの制御、出力制限、ロギングなど、プライバシー強化に関する制御を幅広くサポートしているため、個人情報(PII)を含むデータに対するアクセスコントロールをより詳細に実現できるというメリットがあります。
このアップデートによって、Amazon S3に蓄積したデータをAWS Glue Job等でPIIをマスキングしたデータに変換する等の作業が不要になるかもしれませんね。
詳細は使用後にレポートしたいと思います。
https://aws.amazon.com/jp/clean-rooms/
以上が、11月29日(米国時間)のKeynoteにて発表されたAnalytics関連サービスになります。
2日目でこのアップデートは多すぎますね!残りのセッションが楽しみです!
まとめ
今回のKeynoteでのAnalytics関連サービス紹介では、従来からAWS社が提唱しているAmazon S3を中心としたレイクハウスアーキテクチャを更にサポートするようなAmazon DataZoneやAWS Clean Rooms等のサービスを開発してきたのだとわかりました。同時に、Amazon Aurora zero-ETLといったETL処理を不要にするデータ分析基盤を作成したり、Amazon QuickSightのレポートもユーザ毎にカスタマイズし、さらには機械学習による予測を理由付で作成することも可能になったりと、これまでよりもマネージドサービスの利便性が増したことを感じました。
次回はデータガバナンス関連のセッションについてご紹介します。
富士ソフトのAWS関連サービスについて、詳しくはこちら
アマゾンウェブサービス(AWS)