Apache Arrow Tokyo

昨日Speeeさんにお邪魔し聞いてきました。ありがとうございました! Twitter hashtag はこちらです。#ArrowTokyo

1. Apache Arrow C++ Datasets

2. TensorFlow + BigQuery Storage API + Apache Arrow

3. RとApache Arrow

Apache Arrow東京ミートアップ2019 – connpass

image

既に3つプレゼン資料がアップロードされてますね。

以下関連ネタをいくつか。

一か月前のParquet最新版リリースノートでもArrow出てきてました。

PARQUET-1390 – [Java] Upgrade to Arrow 0.10.0

parquet-mr/CHANGES.md at apache-parquet-1.11.0 · apache/parquet-mr · GitHub

ParquetでGoogleったら2年前のPodcastが見つかりました。昨日も出てきた SIMD(Single Instruction Multiple Data)とかOracle  In-Memory 担当時に出てきたRun Length Encoding, Bit Packingとか喋ってます。

Parquet, a file format for storing columnar data on disk.

Columnar Data: Apache Arrow and Parquet with Julien Le Dem and Jacques Nadeau – Software Engineering Daily

Arrow FlightはODBCと比較してるのが面白いです。というか将来的にはFlightを使うODBCドライバーが登場してくるって流れかと思うんですが。。。

For comparison, an ODBC interface involves asking for each cell individually.

Understanding Apache Arrow Flight – Dremio

gRPCはドメイン持ってるんですね。以下ブログです。

HTTP/2 dramatically increases network efficiency

gRPC

最近IntelのOpenVINOのmeetupに行ってきたのでもしやと思ってGoogleったら Apache Arrow 絡みのものがありました。

Apache Spark, Pandas and Apache Arrow

Overcoming Visual Analysis Paralysis – IT Peer Network

OpenVINOが直接Arrowできるってわけでは無さそうです。Intel MKL の方かもしれません。

最後です。弊社ClouderaのHadoopパッケージングの最近のバージョンではParquet以外でも内部的にArrow使われてます。お客さんがArrow使ってるって話も聞くことはあります。

2 thoughts on “Apache Arrow Tokyo

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s