460-AWS SAP AWS 「理論・実践・一問道場」クローリング

type

status

date

slug

summary

理論

「クローリング」とは、インターネット上のウェブサイトやページを自動的に巡回して情報を収集するプロセスのことです。特に、検索エンジンのボットがウェブページをスキャンして、内容をインデックスに登録する際に行う作業が「ウェブクロール」と呼ばれます。

このプロセスでは、指定されたURLのリストを基に、ページを訪れてデータを取得し、必要な情報（例えば、テキストや画像）をダウンロードしたり、解析したりします。クローリングは、例えば検索エンジンがページの内容を理解し、結果をランキングに反映させるために必要不可欠です。

1. AWS Lambdaを利用したサーバーレスアーキテクチャ

AWS Lambdaは、サーバーを管理せずにコードを実行できるサーバーレスサービスです。

Lambdaは、トリガーに応じて自動的にスケールし、リクエストがないときは実行されません。この特性により、リソースの無駄を避けることができ、コストを最小化できます。

Lambdaの利用には、リクエストに基づいた課金がされるため、アイドル状態のコストが発生しません。

2. Amazon S3を用いた低コストなストレージ

Amazon S3は、非常にスケーラブルで耐久性が高いオブジェクトストレージサービスです。データを長期間保存する場合に最適で、クローリングデータのような大量のファイルを効率的に保存できます。

S3は、保存するデータ量に基づいてコストが発生するため、処理後の結果を保存するのに非常にコスト効率が良いです。

3. Amazon EC2インスタンスのコスト最適化

EC2インスタンスを使用する場合、インスタンスが常に稼働し続けるため、アイドル状態の時間が長いとコストが無駄になります。

必要に応じてスケールするサービス（LambdaやFargateなど）の導入により、コストを最適化することができます。

4. 非同期処理とバッチ処理

SQS（Simple Queue Service）を使用することで、非同期処理を実現し、リクエストがあるときにのみリソースを利用できます。LambdaやEC2インスタンスの利用を非同期にすることで、効率的にリソースを使用できます。

これらの知識を活用することで、ウェブクローリングのようなリソースを動的に管理するタスクのコストを最適化し、スケーラブルなシステムを構築できます。

実践

略

一問道場

ある企業が、機械学習アルゴリズムの訓練データを取得するために、ターゲットURLのリストに基づいてウェブクローリングプロセスを実行しています。複数のAmazon EC2 t2.microインスタンスが、Amazon Simple Queue Service (Amazon SQS)キューからターゲットURLを取得し、クローリングアルゴリズムの結果を.csvファイルとしてAmazon Elastic File System (Amazon EFS)ボリュームに書き込みます。EFSボリュームは、インスタンスのすべてのフリートでマウントされています。別のシステムが、URLをSQSキューに追加していますが、その頻度は低いです。インスタンスは、各URLを10秒以内にクローリングします。メトリクスによると、URLがSQSキューにないときに、一部のインスタンスがアイドル状態になっています。ソリューションアーキテクトは、コストを最適化するためにアーキテクチャを再設計する必要があります。

次の手順のうち、コストを最も効果的に最適化するために実施すべきものはどれですか？（2つ選んでください。）

A. ウェブクローリングプロセスにm5.8xlargeインスタンスを使用し、インスタンスの数を50%削減します。

B. ウェブクローリングプロセスをAWS Lambda関数に変換し、Lambda関数でSQSキューからURLを取得するように設定します。

C. ウェブクローリングプロセスで結果をAmazon Neptuneに保存するように変更します。

D. ウェブクローリングプロセスで結果をAmazon Aurora Serverless MySQLインスタンスに保存するように変更します。

E. ウェブクローリングプロセスで結果をAmazon S3に保存するように変更します。