443-AWS SAP AWS 「理論・実践・一問道場」 Parquet形式

type

status

date

slug

summary

理論

1. AWS IoT Core

概要: AWS IoT Coreは、デバイスからAWSクラウドへのデータ送信を簡単にし、デバイス間のメッセージング、データ収集、デバイス管理を行うためのサービスです。センサーやIoTデバイスがクラウドに直接データを送信する際に利用されます。

用途: IoTデバイスが送信するメッセージを受信し、処理、保存、分析するために使用されます。

2. Amazon Kinesis Data Firehose

概要: Amazon Kinesis Data Firehoseは、リアルタイムデータストリーミングサービスで、データを簡単にAmazon S3、Amazon Redshift、Amazon Elasticsearchなどに取り込むことができます。

用途: 大量のデータをリアルタイムで集め、データをストレージに保存するために使用されます。このサービスは、データストリームの変換や圧縮もサポートしています。

3. AWS Lambda

概要: AWS Lambdaは、サーバーレスコンピューティングサービスで、コードを実行するためにインフラの管理を不要にします。データの変換、集約、保存などのタスクを簡単に自動化できます。

用途: Kinesis Data FirehoseやS3に送られたデータを処理・変換し、他のサービスへ渡す際に使用されます。例えば、センサーから送られたデータをCSVやParquet形式に変換する処理など。

4. Amazon S3

概要: Amazon S3 (Simple Storage Service)は、データを高い耐久性で保存するためのオブジェクトストレージサービスです。大規模なデータの保存に最適で、非常にスケーラブルです。

用途: Kinesis Data FirehoseやLambdaから受け取ったデータを長期間保存するために使用されます。特に、データ分析やアーカイブの目的でよく利用されます。

5. Apache Parquet

概要: Apache Parquetは、列指向のデータフォーマットで、大規模データのクエリ性能を向上させるために使用されます。特に、ビッグデータ環境や分析に適しています。

用途: データの保存形式として選ばれることが多く、S3に保存されるデータの形式として適しています。Parquetフォーマットは、ストレージ効率が良く、読み込み/書き込みが高速です。

6. Amazon Athena

概要: Amazon Athenaは、S3に保存されたデータに対して直接SQLクエリを実行できるインタラクティブなクエリサービスです。データを別途ロードすることなく、S3上で直接分析できます。

用途: S3に保存されたデータに対して、データアナリストが迅速にSQLクエリを実行して分析を行うために使用されます。Athenaは、ParquetやCSV形式のデータに対して非常に効率的に動作します。

推奨アーキテクチャの概念

データフロー:

センサーからのデータがAWS IoT Coreに送信され、Kinesis Data Firehoseに転送されます。

AWS Lambdaを使用して、受け取ったデータを適切な形式（例えば、Apache Parquet）に変換します。

変換されたデータは、Amazon S3に保存されます。

データアナリストは、Amazon Athenaを使用してS3に保存されたデータに対してSQLクエリを実行します。

利点:

スケーラビリティ: 各コンポーネントはスケーラブルであり、必要に応じてリソースを自動的に拡張できます。
コスト効率: サーバーレスで、使った分だけ課金されるため、コスト効率が良いです。
管理負担の軽減: サーバーの管理が不要で、データ処理が自動化されているため、運用の負担が軽減されます。

実際のシナリオでの使用方法

このアーキテクチャは、IoTセンサーからのデータ収集を効率的に処理するために使用されます。特に、センサーからのデータが常に発生するシナリオでは、リアルタイムでのデータ処理、保存、および迅速なクエリ処理が必要です。AthenaとParquetの組み合わせは、データ分析のパフォーマンスを大幅に向上させます。

実践

略

一問道場

質問 #443

洪水監視機関は、10,000台以上の水位監視センサーを展開しています。センサーは継続的にデータ更新を送信し、各更新は1MB未満のサイズです。この機関には、これらのセンサーからの更新を受け取るオンプレミスのアプリケーションサーバー群があります。サーバーは生データを人間が読みやすい形式に変換し、その結果をオンプレミスのリレーショナルデータベースサーバーに書き込みます。データ分析者は、その後、簡単なSQLクエリを使用してデータを監視します。

機関は、アプリケーションの可用性を向上させ、メンテナンスタスクに必要な労力を削減したいと考えています。これらのメンテナンスタスクには、アプリケーションサーバーへの更新やパッチが含まれており、そのためダウンタイムが発生します。アプリケーションサーバーがダウンしている間、残りのサーバーではセンサーからの全てのワークロードを処理できないため、データが失われます。

機関は、運用オーバーヘッドとコストを最適化するソリューションを望んでいます。ソリューションアーキテクトは、AWS IoT Coreを使用してセンサーデータを収集することを推奨しました。これらの要件を満たすために、ソリューションアーキテクトは何を推奨すべきですか？

A. センサーデータをAmazon Kinesis Data Firehoseに送信します。AWS Lambda関数を使用して、Kinesis Data Firehoseのデータを読み取り、CSV形式に変換して、Amazon Aurora MySQL DBインスタンスに挿入します。データ分析者には、DBインスタンスから直接データをクエリするように指示します。

B. センサーデータをAmazon Kinesis Data Firehoseに送信します。AWS Lambda関数を使用して、Kinesis Data Firehoseのデータを読み取り、Apache Parquet形式に変換して、Amazon S3バケットに保存します。データ分析者には、Amazon Athenaを使用してデータをクエリするように指示します。

C. センサーデータをAmazon Managed Service for Apache Flink（以前のAmazon Kinesis Data Analytics）アプリケーションに送信して、データをCSV形式に変換し、Amazon S3バケットに保存します。その後、データをAmazon Aurora MySQL DBインスタンスにインポートします。データ分析者には、DBインスタンスから直接データをクエリするように指示します。

D. センサーデータをAmazon Managed Service for Apache Flink（以前のAmazon Kinesis Data Analytics）アプリケーションに送信して、データをApache Parquet形式に変換し、Amazon S3バケットに保存します。データ分析者には、Amazon Athenaを使用してデータをクエリするように指示します。

解説

正解はBです。

問題の解説

この問題は、IoTセンサーからのデータ収集、処理、および分析に関するものです。具体的には、センサーからのデータを受け取って、効果的に処理し、データアナリストが簡単に分析できるようにするためのアーキテクチャ設計に関する問題です。

正解選択肢：B

B: センサーからのデータをAmazon Kinesis Data Firehoseに送信し、AWS Lambda関数を使用してデータを読み取り、Apache Parquet形式に変換してAmazon S3バケットに保存します。その後、データアナリストがAmazon Athenaを使ってデータをクエリします。

理由:

Kinesis Data Firehoseは、データをリアルタイムで収集し、Amazon S3などのストレージサービスに直接送信できるサービスです。
AWS Lambdaを使って、Kinesisからのデータを変換する処理を簡単に自動化できます。
Apache Parquetは、列指向のデータフォーマットで、データのクエリ性能を向上させるため、大規模データに対する効率的な分析を実現します。
Amazon Athenaは、S3に保存されたデータに対して直接SQLクエリを実行できるサービスです。データをデータベースにロードせずに、効率的にクエリができます。

他の選択肢の説明

A: センサーのデータをKinesis Data Firehoseに送信し、AWS Lambda関数を使用してCSV形式に変換し、Amazon Aurora MySQL DBインスタンスに挿入します。データアナリストはDBインスタンスから直接データをクエリします。

問題点: CSVは大規模データに対する効率的なクエリを提供しません。さらに、Aurora MySQLはリレーショナルデータベースであり、スケーラビリティやパフォーマンスの面で制限があります。

C: センサーのデータをAmazon Managed Service for Apache Flinkに送信し、データをCSV形式に変換してAmazon S3に保存し、その後、データをAmazon Aurora MySQL DBインスタンスにインポートします。

問題点: Apache Flinkは強力なストリーム処理を提供しますが、CSV形式で保存するとパフォーマンスが低下します。また、最終的なDBに保存する手順が冗長で、Athenaを使った方が効率的です。

D: センサーのデータをAmazon Managed Service for Apache Flinkに送信し、データをApache Parquet形式に変換してAmazon S3に保存し、データアナリストがAmazon Athenaを使ってデータをクエリします。

問題点: これは理想的な選択肢に近いですが、Flinkの使用はこのケースではオーバーキルです。Kinesis Data FirehoseとLambdaで十分に処理可能です。

結論

選択肢Bが最適です。理由は、Kinesis Data Firehose、Lambda、S3、Athenaの組み合わせが非常にスケーラブルで、運用コストも低く、簡単に設定できます。また、データをApache Parquet形式で保存することで、後で効率的にクエリを実行でき、全体的に効率的なデータ処理と分析が可能です。