type
status
date
slug
summary
tags
category
icon
password
理論
1. Amazon S3ストレージクラス
Amazon S3は、異なるニーズに対応する複数のストレージクラスを提供しています。データが増加する中で、最適なストレージクラスを選択することがコスト効率に大きな影響を与えます。
- S3 Standard: 頻繁にアクセスされるデータに適しているが、コストは比較的高い。
- S3 Glacier Deep Archive: ほとんどアクセスされないデータのアーカイブに適しており、最も低コストなオプション。
- S3 Intelligent-Tiering: 頻繁にアクセスされるデータとそうでないデータを自動的に分類し、コストを最適化するが、アクセス頻度に基づいた料金が発生します。
2. S3 Lifecycleポリシー
S3 Lifecycleポリシーを使用すると、データの年齢に基づいてストレージクラスを変更するルールを自動化できます。例えば、データが1年以上経過した後に、S3 Glacier Deep Archiveに移行することで、長期保存するデータのコストを削減できます。
3. データクエリと分析
AWSには大規模なデータ分析を行うためのツールがあります。
- S3 Select: S3内のオブジェクトから直接データを選択してクエリを実行する機能。小規模なデータに適しているが、数テラバイトのデータには向いていません。
- Amazon Redshift Spectrum: Amazon Redshiftの外部データを分析するためのサービス。大規模データ分析に適していますが、コストが高くなる可能性があります。
- Amazon Athena: S3に格納されたデータを直接クエリできるサービスで、サーバーレスでスケーラブル。Athenaは、大規模なデータを効率的に分析するのに適しており、料金もクエリしたデータ量に基づくため、必要な分だけ支払うことができます。
- AWS Glue: 大規模なデータセットを管理し、メタデータカタログを作成してデータ処理を効率化するためのサービス。
メタデータカタログ
メタデータカタログは、データの構造や属性に関する情報(メタデータ)を管理するシステムです。
メタデータカタログの役割:
- データの説明: メタデータカタログには、データセットの構造(テーブル名、列名、データ型など)やデータの場所(例えば、S3バケット内のパス)などの情報が含まれます。この情報は、データの管理、発見、利用を容易にします。
- スキーマ情報: メタデータカタログは、データベースやデータセットのスキーマ(例えば、テーブル、列の構造など)を管理する場合もあります。スキーマはデータの構造を定義するものですが、メタデータカタログはそのスキーマ情報を格納する役割を持ちます。
例:AWS Glue Data Catalog
AWS Glueのメタデータカタログは、データベース、テーブル、列、データ型などのメタデータを保存するために使用されます。これにより、AthenaやRedshift Spectrum、Glue ETLなどのツールが、S3に格納されたデータにアクセスする際に必要な情報を取得することができます。
まとめ:
- メタデータカタログ: データの構造、形式、場所などに関する情報を格納し、管理するシステム。
- スキーマ: データベース内でデータの構造を定義する設計図。メタデータカタログはこのスキーマ情報を管理することがあります。
つまり、メタデータカタログはスキーマ情報を含んでいますが、メタデータカタログ自体はスキーマそのものではなく、スキーマを含むより広範なデータに関する情報を管理するものです。
実践
略
一問道場
質問 #92
トピック 1
ある企業がAWSクラウドでアプリケーションを実行しています。このアプリケーションは、Amazon S3バケットに大量の非構造化データを収集して保存しています。S3バケットには数テラバイトのデータがあり、S3 Standardストレージクラスが使用されています。データは毎日数ギガバイト増加します。
企業はこのデータをクエリして分析する必要があります。1年以上古いデータにはアクセスしませんが、コンプライアンスの理由でデータは無期限に保持する必要があります。
どのソリューションが最もコスト効率よくこれらの要件を満たしますか?
A. S3 Selectを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
B. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
C. AWS Glue Data CatalogとAmazon Athenaを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
D. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Intelligent-Tieringに移行します。
解説
この問題の要点は、企業がデータを無期限に保持しつつ、コスト効率よくクエリと分析を行いたいという要件です。
A. S3 Selectは小さなデータのクエリに適しており、数テラバイトのデータに対しては不向きです。
B. Amazon Redshift Spectrumは大規模データ分析に適していますが、料金が高くつきます。
C. AWS GlueとAmazon Athenaは、S3に保存されたデータに対して効率的な分析を提供し、特にクエリが大規模なデータセットに対して最適です。また、S3 Glacier Deep Archiveにデータを移行することも最適な選択です。
D. S3 Intelligent-Tieringはデータアクセスの頻度に基づいてコスト最適化を行いますが、ここではアクセス頻度に関する要件がないため、最適ではありません。
したがって、最もコスト効率よく要件を満たすのはCです。
- 作者:みなみ
- 链接:https://tangly1024.com/資格勉強/16cd7ae8-88e2-80e0-877d-d3aa8f916433
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章