イベントについて
2024/08/21オフライン開催のこんなイベントに参加してきました。
「みんなの考えた最強のデータ基盤アーキテクチャ」はdatatech-jpで集ったデータエンジニアが、みなさんが考える最強のデータ基盤アーキテクチャを紹介し合うという夢のような企画です。
今回は2024前期版を実施します!
前回、前々回はデータアーキテクチャをテーマとしては異例の参加登録1,000名超えの大盛況なイベントとなりましたm(__)m
データに関連する人たちが、データに関連する人たちへ向けたデータアーキテクチャのイベントになっていました。
コンテンツ
当日の発表資料や詳細についてはイベントURLから飛べるのでそちらを参照してください。
Snowflakeに関して、私自身は普段業務で触ることはないのですが興味のある技術で、ずっと触ってみたいなとは思っています。こういったデータ系のイベントに参加すると、どこもかしこもSnowflake一強な気がしていて、勉強したいなーという気持ちがずっとふわふわしています。
私のチームが見ているデータ基盤は、現状Google Cloudのサービスをメインに利用していて、DWHにはBIgQueryを利用しているためivitaspoさん(以下きびさん)の公演は特に興味を持って聞いていました。
それぞれのデータ猛者たちの発表時間は、質疑応答含めて15分しかなかったためコンテンツが深ぼられることはなかったのですが、きびさんはSnowflakeへの移管によって、Data Ingestion周りのアーキテクチャがどう変化したかといったトピックについての発表でした。
きびさんの発表が気になっていたので、
こちらが発表資料です。
正直まだ詳細を噛み砕けていないのですが、当日割愛された部分はAppendixにありました。チラ見したところ、BQ→Snowflakeへと移行したのは、前提サービスがAWSで構築されていることが大きかったように感じます。
まず、データ基盤の移行前後の構成が下記のような感じでした。
古いデータ基盤
新しいデータ基盤
綺麗にSnowflakeに切り替わっていますね。データソース部分は変えず、ETL処理をする部分が大々的にSnowflakeに切り替わっていることがわかります。BigQuery + dbtの構成が、Snowflake + dbtへと更新されていて、その前段の処理部分が各種SnowflakeサービスとOmnataへ変更されています。
Salesforce部分は、外部プロセスを使わずにSnowflakeからクエリを叩けるらしく、シンプルにすごいなと思いました。(SOQLっていうらしい)
正直発表スライドと当日のメモだけじゃ噛み砕けず、Snowflakeと各種サービスの特徴を捉えながら時間を使って解釈したいです。記事として書くのは保留します。
S3部分は、今までPut EventをhookにBQへデータ格納していたらしいです。力技的な運用は、スタートアップやベンチャーでよく見る構成な気がして親近感が湧いたのですが、ここの仕組みはSnowpipeで綺麗にできるらしいです。
確かに図で見ると格段に綺麗になっていますね。Youtube liveのコメントを見ていても、「出た! Iceberg」というコメントがあったり、社内のSnowflakeサミットに行ってきた人たちの共有会でもこの言葉が出てきていたことから注目度が高いものなのだと想像できます。
ちょっとよくわからないんですけど、単語だけに反応している状態でした。。。勉強せねば。
熱があるうちに一旦記事に起こそうと思って書き殴りました。他の人の発表資料や関連記事も見つつ、pixib Adsのデータ基盤に関する話も面白そうだなと思っているのでまとめてみたいと思います。