type
status
date
slug
summary
tags
category
icon
password
 

理論

1. Amazon S3ストレージクラス

Amazon S3は、異なるニーズに対応する複数のストレージクラスを提供しています。データが増加する中で、最適なストレージクラスを選択することがコスト効率に大きな影響を与えます。
  • S3 Standard: 頻繁にアクセスされるデータに適しているが、コストは比較的高い。
  • S3 Glacier Deep Archive: ほとんどアクセスされないデータのアーカイブに適しており、最も低コストなオプション。
  • S3 Intelligent-Tiering: 頻繁にアクセスされるデータとそうでないデータを自動的に分類し、コストを最適化するが、アクセス頻度に基づいた料金が発生します。

2. S3 Lifecycleポリシー

S3 Lifecycleポリシーを使用すると、データの年齢に基づいてストレージクラスを変更するルールを自動化できます。例えば、データが1年以上経過した後に、S3 Glacier Deep Archiveに移行することで、長期保存するデータのコストを削減できます。

3. データクエリと分析

AWSには大規模なデータ分析を行うためのツールがあります。
  • S3 Select: S3内のオブジェクトから直接データを選択してクエリを実行する機能。小規模なデータに適しているが、数テラバイトのデータには向いていません。
  • Amazon Redshift Spectrum: Amazon Redshiftの外部データを分析するためのサービス。大規模データ分析に適していますが、コストが高くなる可能性があります。
  • Amazon Athena: S3に格納されたデータを直接クエリできるサービスで、サーバーレスでスケーラブル。Athenaは、大規模なデータを効率的に分析するのに適しており、料金もクエリしたデータ量に基づくため、必要な分だけ支払うことができます。
  • AWS Glue: 大規模なデータセットを管理し、メタデータカタログを作成してデータ処理を効率化するためのサービス。

メタデータカタログ

メタデータカタログは、データの構造や属性に関する情報(メタデータ)を管理するシステムです。

メタデータカタログの役割:

  1. データの説明: メタデータカタログには、データセットの構造(テーブル名、列名、データ型など)やデータの場所(例えば、S3バケット内のパス)などの情報が含まれます。この情報は、データの管理、発見、利用を容易にします。
  1. スキーマ情報: メタデータカタログは、データベースやデータセットのスキーマ(例えば、テーブル、列の構造など)を管理する場合もあります。スキーマはデータの構造を定義するものですが、メタデータカタログはそのスキーマ情報を格納する役割を持ちます。

例:AWS Glue Data Catalog

AWS Glueのメタデータカタログは、データベース、テーブル、列、データ型などのメタデータを保存するために使用されます。これにより、AthenaやRedshift Spectrum、Glue ETLなどのツールが、S3に格納されたデータにアクセスする際に必要な情報を取得することができます。

まとめ:

  • メタデータカタログ: データの構造、形式、場所などに関する情報を格納し、管理するシステム。
  • スキーマ: データベース内でデータの構造を定義する設計図。メタデータカタログはこのスキーマ情報を管理することがあります。
つまり、メタデータカタログはスキーマ情報を含んでいますが、メタデータカタログ自体はスキーマそのものではなく、スキーマを含むより広範なデータに関する情報を管理するものです。

実践

一問道場

質問 #92
トピック 1
ある企業がAWSクラウドでアプリケーションを実行しています。このアプリケーションは、Amazon S3バケットに大量の非構造化データを収集して保存しています。S3バケットには数テラバイトのデータがあり、S3 Standardストレージクラスが使用されています。データは毎日数ギガバイト増加します。
企業はこのデータをクエリして分析する必要があります。1年以上古いデータにはアクセスしませんが、コンプライアンスの理由でデータは無期限に保持する必要があります。
どのソリューションが最もコスト効率よくこれらの要件を満たしますか?
A. S3 Selectを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
B. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
C. AWS Glue Data CatalogとAmazon Athenaを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Glacier Deep Archiveに移行します。
D. Amazon Redshift Spectrumを使用してデータをクエリします。S3ライフサイクルポリシーを作成して、1年以上古いデータをS3 Intelligent-Tieringに移行します。
 

解説

この問題の要点は、企業がデータを無期限に保持しつつ、コスト効率よくクエリと分析を行いたいという要件です。
A. S3 Selectは小さなデータのクエリに適しており、数テラバイトのデータに対しては不向きです。
B. Amazon Redshift Spectrumは大規模データ分析に適していますが、料金が高くつきます。
C. AWS GlueとAmazon Athenaは、S3に保存されたデータに対して効率的な分析を提供し、特にクエリが大規模なデータセットに対して最適です。また、S3 Glacier Deep Archiveにデータを移行することも最適な選択です。
D. S3 Intelligent-Tieringはデータアクセスの頻度に基づいてコスト最適化を行いますが、ここではアクセス頻度に関する要件がないため、最適ではありません。
したがって、最もコスト効率よく要件を満たすのはCです。
相关文章
クラウド技術の共有 | AWS Site-to-Site
Lazy loaded image
EKSでのWordPressデプロイ:KCNA-JP試験対策 (Kubernetes実践編)
Lazy loaded image
初心者向け!コンテナ化WordPressサイト構築ガイド(超詳細版)
Lazy loaded image
EFSを活用!AWS EC2でDockerを使ったWordPressサイト構築
Lazy loaded image
529-AWS SAP AWS 「理論・実践・一問道場」VPCエンドポイント
Lazy loaded image
528-AWS SAP AWS 「理論・実践・一問道場」Migration Evaluator
Lazy loaded image
093-AWS SAP AWS 「理論・実践・一問道場」AWS Snowball091-AWS SAP AWS 「理論・実践・一問道場」SSE-S3
Loading...
みなみ
みなみ
一个普通的干饭人🍚
最新发布
02-生成AIパスポート試験対策:第2章「生成AI」
2025-2-1
01-生成AIパスポート試験対策:第1章「人口知能」
2025-2-1
究極のAWS認定 AI 実践者 AIF-C01 - 学習メモ
2025-1-27
不要再傻傻的直接买NISA啦
2025-1-27
Kubernetes、仮想マシンとコンテナの概念を超簡単に解説!
2025-1-24
529-AWS SAP AWS 「理論・実践・一問道場」VPCエンドポイント
2025-1-22
公告
🎉欢迎访问我的博客🎉
- 感谢您的支持 --
本站点于2024/09/01建立
👏主要分享IT相关主题👏
系统管理:
Redhat…
容器和编排:
Kubernetes、Openshift…
云计算:
AWS、IBM…
AI入门
以及技术笔记和考证经验
定期更新,欢迎互动。
感谢访问!
快速浏览相关标签