Amazon Athena

S3のデータに対してSQLクエリできる。課金体系は、スキャン量課金で、1TB毎に5ドル程度（BigQueryやRedshift Spectrumも同程度の額）。

コスト最適化

主に２パターンある。

データを列指向のparquet型などで持つ
パーティション分割により、データのスキャン量を削減

パーティション分割

Hiveパーティションの場合
- MSCK REPAIR TABLEでパーティションを認識させられる
  - この場合、GlueのData Catalogでパーティション状況がわかる。
- Athenaからのパーティション射影により、DDLでパーティション認識させることができる
  - この場合、GlueのData Catalogでパーティション状況が見えなくなり、テーブルのスキーマ定義などだけが記録される。

後者の場合が設定は楽だが、他サービスはこのパーティション射影に対応してない場合があり、その場合はMSCK REPAIR TABLEを使う方が良い可能性がある。他、メリットデメリットについては参考URLを参照。

参考

カラム更新時のPARTITION再設定

カラムを変更(float->double)などに変更した場合、作成済みのPARTITIONについては再度作成が必要となる。 (データをINSERT INTOなどで挿入しようとすると、エラーとなる。)

エラーとなったパーティションについてGlueで型の定義を確認することが可能。

以下のクエリでエラーとなったパーティションを再作成して上書きすることも可能。

ALTER TABLE default.device_table ADD
PARTITION (year = '2022', month = '10', day = '25')

ただしAthenaの場合、通常は一回DROPするか、MSCK REPAIR TALBEする方が良いと考えられる。

なおパーティション射影の場合は、これは発生しない？と思われる。

参考記事

Amazon Athenaでクエリ実行時に「The column ‘‘ in table ‘‘ is declared as type ‘double’, but partition ‘Optional[year=/month=/day=]’ declared column ‘‘ as type ‘float’.」というエラーが発生する場合の対処 | DevelopersIOPartitioningとBucketingPartitioningスキャンする対象を限定するBucketing大きいファイルの処理を水平分散する参考struct型でJSONデータをパースデータが少ない場合、存在しないものがnullとなる。データが多すぎる場合でも値は取得できる。参考external_locationAthenaのCTASはexternal_locationで結果の保存先を変更できるArticlesApache Hive互換のマニフェストファイル(symlink.txt)を作る方法これはすごいわりと各パラメータの詳しい説明があるCloudTrailログでPartitionどうしたらええかのヒントにもなるプロダクトにS3使うときは合った方がいい？（ログまででいいかもだが分析することがあれば）サクッとデータレイクから大規模分析際に良いジョブ化するにはGlueを使う様子Updates固定価格で長期的なコミットメントなしに、完全に管理されたコンピュート容量でSQLクエリを実行できるようにするミッションクリティカルなクエリに専用コンピートを割り当て、クエリの同時実行数やコストなどのワークロード性能特性を制御することが可能容量はいつでも追加可能で、指定した容量とアカウントで有効な時間に対してのみ支払いが発生石川さんのブログが出ている1つのDPUは、4つのvCPUと16GB RAMに相当プロビジョニングできる最小キャパシティは、24DPU、8時間最小でも82.56USDの料金が発生してしまうProvisioned Capacityが最も適しているユースケースは、Athenaに毎月100ドル以上利用する場合RI（Reserved Instance）に例えるなら、8時間以上の前払いなしのRIを動的に購入して適用するのに近いHudi 0.12.2のテーブルをAthenaでクエリすることが可能にHudiは、Amazon EMR、Apache Spark、Apache Hiveまたはその他の互換性のあるサービスを介して管理されるデータ管理フレームワーク

PreviousAmazon Redshift NextAWS Glue

Last updated 2 years ago

hashtagコスト最適化

hashtagパーティション分割

hashtagカラム更新時のPARTITION再設定

コスト最適化

パーティション分割

カラム更新時のPARTITION再設定