092-AWS SAP AWS 「理論・実践・一問道場」AWS Glue

type

status

date

slug

summary

理論

1. Amazon S3ストレージクラス

Amazon S3は、異なるニーズに対応する複数のストレージクラスを提供しています。データが増加する中で、最適なストレージクラスを選択することがコスト効率に大きな影響を与えます。

S3 Standard: 頻繁にアクセスされるデータに適しているが、コストは比較的高い。

S3 Glacier Deep Archive: ほとんどアクセスされないデータのアーカイブに適しており、最も低コストなオプション。

S3 Intelligent-Tiering: 頻繁にアクセスされるデータとそうでないデータを自動的に分類し、コストを最適化するが、アクセス頻度に基づいた料金が発生します。

2. S3 Lifecycleポリシー

S3 Lifecycleポリシーを使用すると、データの年齢に基づいてストレージクラスを変更するルールを自動化できます。例えば、データが1年以上経過した後に、S3 Glacier Deep Archiveに移行することで、長期保存するデータのコストを削減できます。

3. データクエリと分析

AWSには大規模なデータ分析を行うためのツールがあります。

S3 Select: S3内のオブジェクトから直接データを選択してクエリを実行する機能。小規模なデータに適しているが、数テラバイトのデータには向いていません。

Amazon Redshift Spectrum: Amazon Redshiftの外部データを分析するためのサービス。大規模データ分析に適していますが、コストが高くなる可能性があります。

Amazon Athena: S3に格納されたデータを直接クエリできるサービスで、サーバーレスでスケーラブル。Athenaは、大規模なデータを効率的に分析するのに適しており、料金もクエリしたデータ量に基づくため、必要な分だけ支払うことができます。

AWS Glue: 大規模なデータセットを管理し、メタデータカタログを作成してデータ処理を効率化するためのサービス。

メタデータカタログ

メタデータカタログは、データの構造や属性に関する情報（メタデータ）を管理するシステムです。

メタデータカタログの役割：

データの説明: メタデータカタログには、データセットの構造（テーブル名、列名、データ型など）やデータの場所（例えば、S3バケット内のパス）などの情報が含まれます。この情報は、データの管理、発見、利用を容易にします。

スキーマ情報: メタデータカタログは、データベースやデータセットのスキーマ（例えば、テーブル、列の構造など）を管理する場合もあります。スキーマはデータの構造を定義するものですが、メタデータカタログはそのスキーマ情報を格納する役割を持ちます。

例：AWS Glue Data Catalog

AWS Glueのメタデータカタログは、データベース、テーブル、列、データ型などのメタデータを保存するために使用されます。これにより、AthenaやRedshift Spectrum、Glue ETLなどのツールが、S3に格納されたデータにアクセスする際に必要な情報を取得することができます。

まとめ：

メタデータカタログ: データの構造、形式、場所などに関する情報を格納し、管理するシステム。

スキーマ: データベース内でデータの構造を定義する設計図。メタデータカタログはこのスキーマ情報を管理することがあります。

つまり、メタデータカタログはスキーマ情報を含んでいますが、メタデータカタログ自体はスキーマそのものではなく、スキーマを含むより広範なデータに関する情報を管理するものです。

実践

略

一問道場

質問 #92

トピック 1

ある企業がAWSクラウドでアプリケーションを実行しています。このアプリケーションは、Amazon S3バケットに大量の非構造化データを収集して保存しています。S3バケットには数テラバイトのデータがあり、S3 Standardストレージクラスが使用されています。データは毎日数ギガバイト増加します。

企業はこのデータをクエリして分析する必要があります。1年以上古いデータにはアクセスしませんが、コンプライアンスの理由でデータは無期限に保持する必要があります。

どのソリューションが最もコスト効率よくこれらの要件を満たしますか？

A. S3 Selectを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。

B. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。

C. AWS Glue Data CatalogとAmazon Athenaを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。

D. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Intelligent-Tieringに移行します。

解説

この問題の要点は、企業がデータを無期限に保持しつつ、コスト効率よくクエリと分析を行いたいという要件です。

A. S3 Selectは小さなデータのクエリに適しており、数テラバイトのデータに対しては不向きです。

B. Amazon Redshift Spectrumは大規模データ分析に適していますが、料金が高くつきます。

C. AWS GlueとAmazon Athenaは、S3に保存されたデータに対して効率的な分析を提供し、特にクエリが大規模なデータセットに対して最適です。また、S3 Glacier Deep Archiveにデータを移行することも最適な選択です。

D. S3 Intelligent-Tieringはデータアクセスの頻度に基づいてコスト最適化を行いますが、ここではアクセス頻度に関する要件がないため、最適ではありません。

したがって、最もコスト効率よく要件を満たすのはCです。