データ収集だけで終わらせない!!! AWS 分析サービスを使ったデータレイクの有効活用

DX(デジタルトランスフォーメーション)が多くの企業で課題となる中、データ活用というキーワードがよく話題になります。現場で収集したデータをビジネスに活用したいと考えている企業も多いのではないでしょうか?一方、データ活用と言っても、現実的にはどのようなデータを収集し、どのように管理し、どのように分析すればいいのかなど、推進の方向性に見当がつかず困っている企業も少なくないでしょう。

本コラムでは、データ活用を目指す企業の現場担当者向けに、データレイクの有効活用について紹介します。

データレイクとは?

そもそもデータレイクとは何でしょうか?

データレイクは、Microsoft Excelのような構造化されたデータ(構造化データ)や、ログや音声データ等の構造化されていないデータ(非構造化データ)をそのまま保存できるリポジトリ(保管場所)です。データレイクを利用することで、分析に必要なデータを、必要な時に必要なだけ取り出して分析、活用できます。データレイクを中心として、データウェアハウスやビックデータ処理でデータを循環したり、データベースや機械学習の処理を考えたりするアーキテクチャが、レイクハウスアーキテクチャです。

AWSにおけるデータレイク

AWSにおけるデータレイクサービスは、Amazon S3(Amazon Simple Storage Service)です。多様なデータを取り込み、APIやSDKを使用して操作できます。また、さまざまなストレージクラスを備えている為、オブジェクトの使用頻度に合わせてコストを最適化できます。オブジェクトレベルの暗号化にも対応している為、データをセキュアに保存できます。

このAmazon S3に保存したデータを他のAWSサービスと組み合わせることによって、より効率的にレイクハウスアーキテクチャを構築できます。

例えば、Amazon EMR(Amazon Elastic MapReduce)を利用することで、最新のフレームワーク(Apache SparkやApache Flinkなど)を低価格で利用してビックデータ処理を行うことができます。

また、AmazonS3に保管されているデータに対して標準SQLを用いてインタラクティブにクエリを実行できるサービスとして、Amazon Athenaがあります。Amazon Athenaはサーバレスのサービスであり、すぐに分析を開始できます。分析した結果は、BIツールであるAmazon QuickSightと連携することで可視化できます。

リアルタイム処理を実行する方法としては、ビデオデータを主に扱うAmazon Kinesisや、Apache Kafkaをストリーミングデータの処理に使用するアプリケーションを簡単に構築できるAmazon MSK(Amazon Managed Streaming for Apache Kafka)があります。

この他にも、AWSではさまざまなサービスを用意しています。

ここまでは、主にAWSサービスに関して紹介してきました。これらの各サービスはそれぞれが効率化されているのですが、分析ワークロードにおいては、利用者側でデータを工夫することでパフォーマンスを向上できます。

例えば、普段アプリケーションで使用しているJSON等のフォーマットを、ETL (Extract/Transform/Load)を通じて分析に特化した列指向フォーマットへと変換することで、さまざまなワークロードでパフォーマンスの向上が見込めます。 ファイルサイズも重要です。小さなファイルをたくさん用意するのではなく、ビックデータフレームワークが処理しやすいように128MBに収めることで処理が向上します。また、データレイク側では、データ配置のパーティショニングを行ったり、クエリやスキャンするデータの対象を減らしたりすることでパフォーマンスを向上できます。

データレイクのサービスを低コストで有効に使う為に

AWSでは、データレイクを中心とした各ワークロードへのデータ連携や、ワークロードからデータレイクへのデータ連携を考慮したレイクハウスアーキテクチャを、低コストで迅速にプロビジョニングできます。これらのサービスを有効活用する為には、ビジネスのユースケースに合わせてサービスを選択することが重要です。

データ活用、レイクハウスアーキテクチャの検討の際には、DXに取り組み、AWSのさまざまなサービスを熟知した富士ソフトにお声がけください。

富士ソフト アマゾン ウェブ サービス (AWS)のご紹介


安斎 寛之安斎 寛之(Hiroyuki Anzai)

ソリューション事業本部
インフラ事業部 クラウドソリューション部
第1技術グループ
リーダー / シニアマスター

この記事を読んだ人はこちらの記事も読んでいます。
AWS re:Invent 2020 注目のサービス
column
本記事では、AWS re:invent 2020における発表内容から注目のサービス3つを厳選して紹介します。 注目のサービス① AWS Gl...