本日、開催されたData Platform Meetup vol.2に参加してきました。発表の内容や関連するリンクをまとめました。

f:id:mergyi:20191202200949p:plain

開催日時: 2019年12月2日
会場: Pixivさんオフィス

Data Platform Meetupとは

connpassページからの引用です。

データプラットフォームを設計/開発/利用している方（データエンジニア/データアナリスト/データサイエンティスト/機械学習エンジニア等）がノウハウを発表したりカジュアルに情報交換できるイベントです。

第一回は9月に開催され、定員の120名を大きく超える応募があったように大盛況でした。

【増枠】Data Platform Meetup - connpass

個人的にはeurekaの鉄本さんの発表資料が自分の状況に当てはまることが多く、大変勉強になりました。他の方にも強くオススメしています。

speakerdeck.com

またMercariさんの発表で「『誰でも中間テーブル』という仕組みをAirflowで作っている」という話がありました。とても感銘を受け、翌日早速、Serverless Frameworkで『Serverlessな誰でも中間テーブル』という仕組みを作ってみました。なかなか便利に使えているのでこれについては何らかの形で社外に発表したいと思っています。

speakerdeck.com

第二回の今回も第一回と同様に定員の100名を上回る応募があり、皆さんのDPに対する関心の高さが伺えます。

発表のまとめ

個人的に三行でまとめると↓のような感想でした。

社内コミュニティやドキュメントなどの啓蒙活動でスキルやナレッジの伝達を各社努力している
Redshiftはマジで大変そう(自分はBig Queryにかなり救われている)
縦持ち、横持ちはコンテキストによって必要性が変わるので使い分ける(snowflake schema)

それではそれぞれの発表についてのまとめです。

プロダクト中心のデータ駆動を推進していくために大事なこと

speakerdeck.com

発表者: 長部和仁さん / pixiv
発表資料: プロダクト中心のデータ駆動を推進していくために必要なこと - Speaker Deck

聴講メモ↓

なぜDPが盛り上がっているのか

クラウドDWHの普及: DPの利用が簡単になりデータ利用の総量が増えた
機械学習: ユースケースが増えた

データ活用のための組織構造

2パターンある: 中央集権型、民主化型
- 中央集権的: 「データアナリスト」が分析を行う
- 民主化型: 「当事者」が分析を行う
pixivでは「民主化」を選んだ
- ユーザーに価値を最速で届けるために。ピクシブの「データ民主化」に向けた挑戦 - pixiv inside

民主化に向けて

壁
- 分析スキルの担保
- ナレッジの共有
- ガバナンス
データ駆動推進室がやったこと
- 「分析・加工の代行は受けない」ようにした
- 簡単にBQにデータをLoadできるツールを作成
- Lookerの導入
- 「データエンジニアリング互助会」の作成などナレッジの共有できる場の設定
- 学習教材の作成を行った
結果
- 「スペシャリストに仕事が偏る」ことが減った

参考記事

感想

「民主化に向けた壁」は自分の会社に照らし合わせても共感できることが多かったです。「ガバナンス」の問題はシステム的に解決できるかもと思いました。

データを用意しただけだと使われないので、使ってもらえるようにした努力

発表者: Hashimoto Yukiさん
発表資料: 現状未公開？(Data Platform Meetup - 資料一覧 - connpass で更新を要チェック)

聴講メモ↓

LivesenseのDWH概要

AWS Redshiftで運用
アクセスログ、イベントログ

頑張ったこと

「入門ドキュメント」の作成
Cookpadが開発しているdmemoを使っている
- データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ
LA Night: 実際に利用している現場の方に発表してもらう

参考記事

感想

データ部署が「ホスピタリティ」を持ってDWHの利用を普及されているのが素晴らしいな、と思いました。

DWHを活用したクックパッドの機械学習プロジェクト

speakerdeck.com

発表者: Inuzuka Shintaroさん(@stu3dio_graph) / Cookpad
発表資料: DWHを活用した機械学習プロジェクト/ml-with-dwh - Speaker Deck

聴講メモ↓

データ取得時にRedshiftを直接叩かなくてよいように内製ツールを使っている
機械学習の結果をDWHに保存して様々な部署に使ってもらっている
dmemoを使っている
- データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ
Redshiftへのデータ投入にも内製ツールを作成している

参考記事

感想

Redshift大変そうだなと思いつつ、内製で様々なツールを作って解決されているなと思いました。

アプリデータの分析を楽に効果的に！FirebaseAnalyticsとお友達になると良い３つの理由。

発表者: Kurimuraさん(@t_kurimura) / Eureka
発表資料: アプリデータの分析を楽に効果的に！ FirebaseAnalytics とお友達になると良い３つの理由_DPM_vol2.pdf - Google ドライブ

聴講メモ↓

Firebase Analyticsの長所
- ログ送信が楽、bulkで送ってくれたり行き届いていて良い
- 自動でセッション関連など基本データは送ってくれる
EurekaではFirebase AnalyticsをETLでBQに入れ、RedashやTableauでデータ分析している

感想

FirestoreからExportする場合も少しクセがあり、自分も困った体験しました。Firebase→BQのETLはどの会社さんもやってそうですね…。

DWH デザインパターン〜テーブル設計編〜

speakerdeck.com

発表者: Takeno Shunsukeさん
発表資料: つかわれるプラットフォーム〜デザイン編〜@DPM#2 - Speaker Deck

聴講メモ↓

Snowflake schemaを使う
- Snowflake schema - Wikipedia
- 正規化テーブルと非正規化テーブルを分解する(ディメンションテーブル、ファクトテーブル)
縦持ちと横持ちのトレードオフを考える
- Rettyでは概ね横持ち

感想

コンテキストによってデータ形式を変えていくというのは参考にしたいと思いました。

その他、最近のDP界隈の話題

今日の発表では直接触れられていたわけではないですが、自分がDP関係で追っているニュースの中で話題になっていたもの興味があるものを貼っておきます。

あと「Data Engineering Podcast」で紹介されていた元Facebookのエンジニアが作っているETLフレームワークの「Dagster」が気になっています。これから流行る予感がします。

www.dataengineeringpodcast.com

dagster-io/dagster: A Python library for building data applications: ETL, ML, Data Pipelines, and more.

またData Bricks社が中心に開発しているML Opsフレームワーク「ML flow」をいくつかのプロジェクトで使っていまして、なかなか便利に使えています。

github.com

今後のData Platform Meetupに参加したい方は

connpassにグループページがあるのでこちらに参加すれば開催のアナウンスを受け取ることができます。自分は運営者ではありませんが、ぜひみんなで勉強会を盛り上げて行きましょう。

data-platform-meetup.connpass.com

さいごに

第一回に引き続き第二回も、すべての発表が実際のプラクティスに基づいていて、非常に参考になりました。運営の皆さん、開催ありがとうございました。

データプラットフォームも、マイクロサービスと同様に、組織やドキュメンテーション、コミュニケーションで解決しなければいけない領域が結構あり、このように知識を共有していくことは非常に重要ですね。

次回以降自分も発表のタイミングがあればしていきたいと思います。

フリーランチ食べたい

No Free Lunch in ML and Life. Pythonや機械学習のことを書きます。

【参加レポート】Data Platform Meetup vol.2の発表内容まとめ＆最近のDP界隈の話題

Data Platform Meetupとは

発表のまとめ