Search Tech Talk

昨日はありがとうございました。貴重な話を聞いてきました。Twitter hashtag は #searchtechjp です。connpassにも資料2つアップロードされてますね。

niconicoの検索システム(2019年版)
ヤフーにおける機械学習検索ランキングの取り組み

Search Engineering Tech Talk 2019 Autumn – connpass

image

仕事柄Apache Hadoopが出てきて嬉しかったです。

最初の上の写真のYahooさんのセッションで興味あったのは以下です。

  1. GPU使う?
  2. モデルのサイズ
  3. 平均判定時間
  4. HDFSに置くファイルのフォーマット
  5. 商品以外の何等かの画像を特徴量として使う?
  6. 文字の種別、ひらがな、カタカナ、難しい漢字などを特徴量として使う?
  7. システム全体のワークロードの中でのHiveの比率

2つ目のドワンゴさんのセッションで興味深いのはグラフによるネットワーク分析、community detection , クラスタ分析でした。

Oracle時代にGraph DBも少し関わったのでSQLをキーワードにGoogleったところ PostgreSQLベースGraph DBでLouvainを頑張ってみた的なページを見つけました!

It is similar to Oracle’s PL/SQL. AgensGraph uses python as the procedure language. Of course, SQL also exists.

Basic example of Graph data community detection by AgensGraph PL/Python. 1 to 2

SQL Server,SAP HANAも含めGraph処理にRDBMSでいいのかそれともSpark的なものが必要なのかはたぶんまだ線引きが決まってないと思います。

Hadoopの世界ではGraphXもありますがJanusGraphってのもあります。DBレイヤーはApache HBaseです。

Apache Atlas – metadata management for governance

GitHub – JanusGraph/janusgraph: JanusGraph: an open-source, distributed graph database

次回も楽しみです!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s