281-AWS SAP AWS 「理論・実践・一問道場」Amazon S3 + AWS Glue + Athena

type

status

date

slug

summary

理論

IoTデータ処理とSQLクエリにおけるコスト効率的なアプローチ

IoTデバイスから大量のデータを収集し、SQLクエリを効率的に実行するには、適切なデータストレージとクエリツールを選択することが重要です。以下は、コスト効率を考慮した最適な方法と、それに関連する本質的な知識です。

1. データストレージの選択

Amazon S3

高耐久性と低コストを兼ね備えたオブジェクトストレージ。
Hadoop Distributed File System (HDFS) の代替として有効。
短時間のクエリや断続的な使用に最適。

HDFSとの違い

HDFS：常時稼働するクラスターが必要 → コスト高。
S3：サーバーレスでスケーラブル → コスト削減。

2. クエリツールの選択

Amazon Athena

S3内のデータに直接SQLクエリを実行可能なサーバーレスツール。
Prestoをベースにしており、ORC形式に対応。
必要なクエリ実行分だけ課金されるため、断続的な使用に最適。

Prestoは、分散型SQLクエリエンジンで、大規模データセットに対して高速なクエリを実行するためのツールです。主に以下の特徴があります：

高速：メモリ内処理を活用し、大量データのクエリを迅速に実行。

多様なデータソース対応：HDFS、S3、Cassandra、MySQLなど、さまざまなデータストレージに対してクエリ可能。

スケーラブル：分散処理を採用しており、クラスター規模に応じてパフォーマンスを向上可能。

用途：データ分析やビッグデータ環境でのインタラクティブなSQLクエリ。

Prestoは、クエリパフォーマンスを重視するデータ分析環境で広く利用されています。

EMRFS (EMR File System) は、Amazon EMR (Elastic MapReduce) クラスターで使用されるファイルシステムの1つで、Amazon S3をバックエンドストレージとして利用するための機能です。以下が特徴です：

S3との連携：HadoopやSparkなどのビッグデータフレームワークが、Amazon S3をHDFSのように扱える。

データの永続性：HDFSと異なり、データはS3に保存されるため、クラスターが停止してもデータが失われない。

アクセス管理：IAMロールやポリシーを使用してS3データへのアクセスを制御可能。

一貫性モデル：S3の最終的な整合性を補完するため、データの一貫性を向上させる「強い整合性ビュー」機能を提供。

主に、コスト効率の高いストレージとスケーラビリティが必要なビッグデータ処理に使用されます。

Amazon Redshiftは、Amazon Web Services (AWS) が提供するクラウド型データウェアハウスサービスです。以下が主な特徴です：

データ分析特化：ペタバイト規模のデータを高速に分析可能。

SQLサポート：標準的なSQLを使ってデータにクエリを実行できる。

スケーラブル：ノードを追加してパフォーマンスやストレージを拡張可能。

統合：ETLツールやBIツール（例：Tableau、QuickSight）と容易に統合可能。

コスト効率：オンデマンド料金モデルで、ストレージとコンピューティングを分離可能（RA3インスタンス）。

主に、大量の構造化データを効率的に保存・分析するために利用されます。

Redshift Spectrumは、Amazon Redshiftの拡張機能で、RedshiftにロードせずにAmazon S3上のデータを直接SQLクエリで分析できるサービスです。以下が主な特徴です：

直接クエリ：S3上のファイル（例：ORC、Parquet、CSV）をRedshiftからそのままクエリ可能。

スケーラブル：クエリごとにスケーラブルなコンピューティングリソースを使用。

統合：Redshift内のデータとS3上のデータを統合して分析可能。

用途：大量データのオンデマンド分析や、データウェアハウスとデータレイクの組み合わせに適している。

主にデータウェアハウスとデータレイクを効率的に統合したい場合に活用されます。

実践

略

一問道場

質問 #281

トピック 1

ある会社が、IoTデバイス群から大量のデータを収集しています。データはHadoop Distributed File System (HDFS) 上の持続的なAmazon EMRクラスターに、Optimized Row Columnar (ORC) ファイルとして保存されています。

同社のデータ分析チームは、同じEMRクラスター上で展開されたApache Prestoを使用してSQLでデータをクエリしています。クエリは大量のデータをスキャンし、常に15分未満で終了し、午後5時から午後10時の間だけ実行されます。

同社は現在のソリューションに関連する高いコストを懸念しています。ソリューションアーキテクトは、SQLデータクエリを可能にする最もコスト効率の高いソリューションを提案する必要があります。

以下のどのソリューションがこれらの要件を満たしますか？

A. データをAmazon S3に保存し、Amazon Redshift Spectrumを使用してデータをクエリする。

B. データをAmazon S3に保存し、AWS GlueデータカタログとAmazon Athenaを使用してデータをクエリする。

C. データをEMR File System (EMRFS) に保存し、Amazon EMRのPrestoを使用してデータをクエリする。

D. データをAmazon Redshiftに保存し、Amazon Redshiftを使用してデータをクエリする。

解説

課題

IoTデータをHDFSに保存し、EMR上のPrestoで分析しているが、コストが高い。

→ SQLクエリを効率的に実行でき、コストを削減する方法を選ぶ。

選択肢の評価

Amazon S3 + Redshift Spectrum

S3上のデータに直接クエリ可能だが、維持コストが高い。

Amazon S3 + AWS Glue + Athena (正解)

サーバーレスで、クエリ実行分のみ課金。

コスト効率が良く、要件に最適。

EMRFS + Presto in EMR

現状維持だが、EMRの運用コストが高く改善にならない。

Amazon Redshift

高性能だが、データ移行や維持コストが高い。

結論

選択肢B (S3 + Athena) が最適。

S3にデータを保存し、AthenaでSQLクエリを実行 → コスト削減と要件を満たす。

🎉 欢迎访问我的博客 🎉

🙏 感谢您的支持 🙏

📅 本站自 2024年9月1日 建立，致力于分享在 IT・MBA・不动产中介 等领域的学习与实践，并推动 学习会 的自主开展。

📖 博客语言使用比例：

🇯🇵 日语 90% 🇨🇳 中文 8% 🇬🇧 英语 2%

📚 主要内容

💻 IT・系统与开发

系统管理：Red Hat 等

容器与编排：Kubernetes、OpenShift

云计算：AWS、IBM Cloud

AI 入门：人工智能基础与实践

技术笔记与考证经验

🏠 不动产 × 宅建士

宅建士考试笔记

🎓 MBA 学习笔记

管理学、经济学、财务分析等

🔍 快速查找内容（标签分类）

由于网站目前没有专门的设计，可能会导致查找信息不便。为了更快找到你感兴趣的内容，推荐使用以下标签功能 进行搜索！

标签 | みなみの風物詩

自分らしく未来へ

https://www.minami.ac.cn/tag

📌 定期更新，欢迎常来看看！

📬 有任何建议或想法，也欢迎留言交流！