094-AWS SAP AWS 「理論・実践・一問道場」Amazon Textract

type

status

date

slug

summary

理論

1. Amazon Textract

Amazon Textractは、スキャンした文書やフォームからテキスト、テーブル、フォームのデータを抽出するマネージドサービスです。主に以下の特徴があります：

OCR（Optical Character Recognition）: TextractはOCRを使用して画像から文字を認識し、文書内のテキストや表形式のデータを抽出します。

フォームデータの抽出: 手書きや印刷されたフォームからもデータを自動で抽出できます。これにより、手作業でのデータ入力作業を削減できます。

高精度: Textractは、Amazonが提供するAI技術を活用し、フォームや文書内の複雑なレイアウトからも精度高く情報を抽出できます。

2. AWS Step Functions

AWS Step Functionsは、分散アプリケーションやマイクロサービスを簡単にオーケストレーションできるサービスです。主な特徴は以下の通りです：

ワークフローの自動化: ステートマシンを定義して、複数のAWSサービスやLambda関数を順番に実行できます。これにより、手動での介入なしにプロセス全体を自動化できます。

状態管理: ステートマシンを使用することで、個々のステップの結果に基づいて次の処理を決定できます。エラーハンドリングや再試行のロジックも簡単に組み込むことができます。

スケーラビリティと柔軟性: 多くの異なるAWSサービスと統合でき、柔軟に拡張することが可能です。

3. AWS Lambda

AWS Lambdaは、サーバーレスコンピューティングサービスで、コードをアップロードするだけでその実行環境を管理します。主な特徴：

イベント駆動型処理: AWS Lambdaは、指定したイベント（例：S3バケットへのファイルアップロード）に応じて自動的にトリガーされ、処理を開始します。これにより、システム全体を自動化できます。

スケーラビリティ: 高トラフィック時でも自動でスケールアップし、リソース管理を意識することなく大規模な処理を行えます。

コスト効率: 実行時間に応じた課金制のため、使った分だけのコストで運用できます。

4. AWS S3 (Simple Storage Service)

Amazon S3は、オブジェクトストレージサービスで、大量のデータを高可用性・耐久性で保存できます。特に、データ処理のパイプラインにおいて中心的な役割を果たします。

データの保存と管理: フォームのスキャンデータや抽出された結果をS3バケットに保存することで、安全に管理できます。

S3イベントトリガー: S3はファイルのアップロードや変更をトリガーとしてLambda関数を呼び出すことができます。これにより、ファイルのアップロード後に自動的に処理を開始できます。

5. データ処理の自動化

本問題の核心は、フォーム処理を自動化し、データを迅速かつ正確に抽出することです。これには以下のようなステップが含まれます：

ファイルのアップロード: ユーザーがフォームをS3にアップロードします。

自動OCR（Optical Character Recognition）: Textractを利用して、フォームからテキストやデータを抽出します。

データ抽出と処理: AWS Lambdaを使用して、抽出されたデータを解析し、必要な形式に整形します。

ターゲットシステムへの送信: 抽出されたデータは、API経由でターゲットシステムに送信されます。

まとめ

フォーム処理の自動化には、AWSのマネージドサービスであるAmazon Textract、AWS Step Functions、AWS Lambda、およびAmazon S3を活用することが重要です。これにより、手動の介入を最小化し、データ抽出の精度を高め、プロセス全体の効率化を図ることができます。また、これらのサービスはすべてスケーラブルで柔軟性があり、長期的な運用コストの削減にも寄与します。

4o mini

実践

略

一問道場

質問 #94

トピック 1

ある企業は、フォーム処理アプリケーションをAWSに移行しました。ユーザーがアプリケーションと対話するとき、スキャンされたフォームをウェブアプリケーションを通じてファイルとしてアップロードします。データベースはユーザーメタデータと、Amazon S3に保存されているファイルの参照を格納します。ウェブアプリケーションは、Amazon EC2インスタンスとAmazon RDS for PostgreSQLデータベースで実行されています。

フォームがアップロードされると、アプリケーションはチームに通知を送信します（Amazon SNSを使用）。チームメンバーはログインして各フォームを処理します。チームメンバーはフォームのデータバリデーションを行い、関連するデータを抽出してから、その情報をAPIを使用する別のシステムに入力します。

ソリューションアーキテクトは、フォームの手動処理を自動化する必要があります。このソリューションは、正確なフォーム抽出を提供し、市場への投入までの時間を最小限にし、長期的な運用オーバーヘッドを最小限に抑える必要があります。

どのソリューションがこの要件を満たしますか？

A. フォームの光学文字認識（OCR）を実行するカスタムライブラリを開発します。これらのライブラリをAmazon Elastic Kubernetes Service（Amazon EKS）クラスターにデプロイして、アプリケーション層として使用します。フォームがアップロードされると、この層を使用してフォームを処理し、結果をAmazon S3に保存します。この出力を解析し、データをAmazon DynamoDBテーブルに抽出して格納し、ターゲットシステムのAPIにデータを送信します。新しいアプリケーション層はEC2インスタンス上でホストします。

B. AWS Step FunctionsとAWS Lambdaを使用するアプリケーション層でシステムを拡張します。この層を構成して、EC2インスタンス上でホストされている人工知能（AI）および機械学習（ML）モデルを使用してフォームの光学文字認識（OCR）を実行します。フォームがアップロードされると、結果をAmazon S3に保存します。この出力を解析して、必要なデータをアプリケーション層で抽出し、ターゲットシステムのAPIにデータを送信します。

C. 新しいアプリケーション層をEC2インスタンス上でホストします。この層を使用して、Amazon SageMakerにホストされたAI/MLモデルが提供するエンドポイントを呼び出し、フォームのOCRを実行します。結果をAmazon ElastiCacheに保存します。この出力を解析し、必要なデータをアプリケーション層で抽出して、ターゲットシステムのAPIにデータを送信します。

D. AWS Step FunctionsとAWS Lambdaを使用するアプリケーション層でシステムを拡張します。この層を構成して、Amazon TextractとAmazon Comprehendを使用してフォームの光学文字認識（OCR）を実行します。フォームがアップロードされると、結果をAmazon S3に保存します。この出力を解析して、必要なデータをアプリケーション層で抽出し、ターゲットシステムのAPIにデータを送信します。

解説

この問題における最適解は D であり、その理由を以下のように説明します。

解説

タスクの要件:

ユーザーはフォームをアップロードし、それを処理してデータを抽出し、他のシステムに送信する必要があります。

現在は手動で処理しているが、自動化したいという要求があります。

正確なフォーム抽出、時間の短縮、運用の手間を最小化する必要があります。

選択肢の評価:

A は独自のライブラリを使ってOCRを行い、EKSクラスター上で処理をするというものですが、運用負荷が高くなります。特に、大規模なスケーラビリティを持たないため、EC2インスタンスの管理やスケーリング、運用の複雑さが増す可能性があります。

B はAI/MLモデルをEC2インスタンス上でホストし、OCR処理を行う案ですが、EC2インスタンスの運用と管理の負担が増えます。また、AWSのネイティブなサービス（例: Textract）を使用せず、独自にOCRモデルを訓練し運用する点でオーバーエンジニアリングになりがちです。さらに、Step Functions や Lambda を使用せず、手動でデータの解析・送信を行う点でも自動化が不完全です。

C はSageMakerを使ってOCR処理を行う案ですが、これはもともと機械学習モデルを訓練するためのサービスであり、テキスト抽出には過剰なリソースです。SageMakerの利用はコストや運用の面で非効率であり、Textractを使用する方が適切です。

D は Amazon Textract を使ってOCRを実行し、データ抽出を行う案です。Textractはフォームや文書からのデータ抽出に特化しており、最も効率的で正確です。また、 AWS Step Functions と Lambda を組み合わせることで、ワークフロー全体を自動化できます。これにより、プロセス全体を効率的に管理でき、運用負担を最小化することができます。

なぜDが最適か:

Amazon Textract はフォームからのテキスト抽出に最適化されており、非常に高精度で迅速に処理できます。

AWS Step Functions と Lambda を使用することで、プロセスを完全に自動化でき、手動での介入が不要になります。

S3にデータを保存し、必要なデータをLambdaなどで処理する流れは、効率的でスケーラブルなシステム構築を可能にします。

このソリューションは、運用コストを削減し、長期的に見て非常にスケーラブルで管理が容易です。

結論

D の解決策は、要求されている「自動化」「正確なデータ抽出」「運用効率」を最も高いレベルで実現するものであり、AWSの最適なサービスを活用した効率的なソリューションです。