GCPUG 観戦

昨日聞いてきました。ありがとうございました。Twitter hashtag は #gcpug です。資料などアップされてます。

BigQueryで行う、機械学習のためのデータ前処理

GCPUG Tokyo December 2019 – connpass

image

19時15分開始でしたw.

Sansanさんのセッションで出てきたS3 Transferはよく見るとBetaですね。

This product is in a pre-release state

Amazon S3 transfers | BigQuery Data Transfer Service | Google Cloud

ファイルはParquetでSnappy圧縮ってことなので比較的圧縮が効いて課金も抑えられるのかもしれません。Snappy は会社では良く耳にしますがGoogleってみたのは初めてでこれ見つけました。

data compression and decompression library written in C++ by Google

Snappy (compression) – Wikipedia

PyArrowとか先週も聞いた単語が出てきました。PyArrow/Arrow が絡んできたときにファイルサイズが変わってくるのか確認したい。

上に引用したLTのBQMLでのデータ前処理のセッションでは前処理だけの話かと思いきや ML.PREDICT() で推論するとこまで出て驚きでした。Oracle時代にも似たのを見かけたの思い出しました。裏の動作は別物ですがw..  他にも地理関数(GeoSpatial, ST_GEOHASH) とかbinningとか全て興味深いです。

次回も楽しみです。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s