ICLR/ICML2019読み会参加レポ

こんにちは、けんご(@N30nnnn)です。

今日は、7/21に開催されたICLR/ICML合同報告会に参加した際の発表メモを残します。 途中までの参加だったのですが、自然言語処理に関するレビュー発表・GANに関するレビュー発表がとても面白く、派生テーマに関心を持つきっかけにもなりました。

connpass.com

目次

ICLR & ICML 2019 概要紹介

https://www.slideshare.net/shoheihido/iclr-icml-2019overview/

ICLRの投稿トレンド

Natural Language Processing @ ICLR2019

https://www.slideshare.net/KazukiFujikawa/nlpiclr2019

ICLRのオーラル4本をレビュー

  • Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
  • Smoothing the Geometry of Probabilistic Box Embeddings
  • Pay Less Attention with Lightweight and Dynamic Convolutions
  • The Neuro-Symbolic Concept Learner

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

arXiv: https://arxiv.org/abs/1810.09536
arXivTimes: https://github.com/arXivTimes/arXivTimes/issues/1210

モチベーションとアプローチ

自然言語は系列として扱うこともできるが(従来観点)、階層構造と考えることもできる(構文解析木的な)。
→ 系列情報と同時に階層構造も学習させたい。

LSTMの機構に手を加えて、OrderedNeurons-LSTMを提案。 本研究は階層構造のアノテーションは不要。 入力された単語が階層構造上のどこに位置しているかを推定する。 構文木をブロック図を用いたセグメント木として学習させたい。 結果を教師なし構文木解析で検証する。

結論

Penn TreeBankでPerplexityを改善。 一方で AWD-LSTM-MoSには数値上劣っている。ただし共存は可能。

AWD-LSTM-MoSはこちら
arXiv: https://arxiv.org/abs/1711.03953
arXivTimes: https://github.com/arXivTimes/arXivTimes/issues/508

Smoothing the Geometry of Probabilistic Box Embeddings

OpenReview: https://openreview.net/forum?id=H1xSNiRcF7

モチベーションとアプローチ

  • Embeddingに対して、階層構造や範囲をもたせたい。
    例えば、Word2Vecを始めとするVector Representationは『猫 ⇒ 哺乳類』と『哺乳類 ⇒ 猫』を分けて表現することはできない。階層構造をもたせることでこれを解決する。

  • ゼロ勾配問題を解決したい。
    ゼロ勾配問題とは、Box Representationの表現において2つのEmbedding間に重なりがない場合、勾配が0になり学習が進まなくなる問題。

前者はBox Embeddingを導入することで解決し、 後者ゼロ勾配問題に対しては活性化関数をReLU型の max(0, z) 型の関数から、 softplus関数に変更することで解決した。

結論

単語同士の関係性を付与したデータセット WordNet を用いて、単語xが単語yの上位語かどうかの2値分類で評価。 過去の手法と比べて精度に遜色はなく、特にアンバランスなデータセットでの分類に強みがある結果となった。

Pay Less Attention with Lightweight and Dynamic Convolutions

arXiv: https://arxiv.org/abs/1901.10430
arXiv Times: https://github.com/arXivTimes/arXivTimes/issues/1059
qiita論文紹介: https://qiita.com/koreyou/items/328fa92a1d3a7e680376

モチベーションとアプローチ

文章生成の主流はSelf-Attentionベースになりつつある一方で、BERTなど推論速度に難がある。 CNNベースとして文脈に応じた特徴量を可能にし高速化したい。
→ Self-Attentionの文脈に応じて重みを変化させる機構(Dynamic weights)に対する代替として Dynamic Convolutionを提案。 計算量の観点からLightweightConvolutionを用いる。

計算量の観点

method 計算量 備考
RNN O(N) 並列化できずに辛い
CNN O(kN) kはカーネルサイズ。全ての入力に対して重みは固定で文脈考慮は難しい
Attention O(N2) すべての入力Embeddingに対して重みを考慮するため重い
本研究 O(kN) Attentionよりオーダー低くて嬉しい

結論

Attentionの精度を維持しながら、約25%ほどの高速化が達成できた。

The Neuro-Symbolic Concept Learner

https://openreview.net/forum?id=rJgMlhRctm

時間により発表省略。

Generative Adversarial Networks @ ICML2019

https://www.slideshare.net/hamadakoichi/gan-icml19

ICML2019に採択された研究テーマとしてはかなり幅広で、 高精度画像の生成や多様な画像の生成、アーキテクチャの改良や安定学習技法の提案など幅広い。 オーラルにもまんべんなく取り上げられている。

本発表では SNGAN with Projection をベースに改良を加えた、最近の目覚ましい成果らを紹介。

  • Self Attention GAN
  • Big GAN
  • S3GAN

SNGAN(Spectral Normalization for Generative Adversarial Networks)はこちら

arXiv: https://arxiv.org/abs/1802.05957
arXiv Times: https://github.com/arXivTimes/arXivTimes/issues/388

Self Attention GAN @ ICML2019

arXiv: https://arxiv.org/abs/1805.08318
arXiv Times: https://github.com/arXivTimes/arXivTimes/issues/760

従来のGANでは局所的な特徴のみを捉えられていたが、 Self Attentionを用いて距離が離れている特徴を捉える事ができた。 例えば犬の画像を生成する問題において、今までの事例としては毛並みや鼻の質感(言い換えればテクスチャ)はよく生成できていたが、頭が2つあるなどのいびつな画像が出来上がってしまう様な例があった。 本研究ではSelf-Attentionを使うことで大局的な特徴を捉えることが可能になり、かつ Spectral Normalizationtwo times update を用いて学習の安定化させた。

BiGGAN @ ICLR2019

arXiv: https://arxiv.org/abs/1809.11096

バッチサイズを8倍、チャネル数を1.5倍にして、生成品質の向上をした。 大規模にしたため、さらに学習安定化の工夫が必要だった。

以下学習安定化の工夫箇条書き。

  • Hierarchical Latent Space
  • Shared Embedding
  • orthogonal Regularization
  • Truncation Trick
  • First Singular Value Clamp
  • Zero-centerd Gradient Penalty

発表時→論文投稿時でさらにモデルが巨大化。 BiGGAN-deep。 複雑な構造を持つ画像、例えば「人が入り乱れている」様な画像の生成はまだ難しく、残課題。

S3 GAN (Semi Supervised GAN with Self-supervision) @ ICLR2019

クラスを条件付けmクラスごとの生成問題に落とし込むことで高品質な生成を行えるが、ラベル作成はコストとミスを背負うことになる。 本研究では教師ラベルを推定ラベルに置き換え、半教師あり学習に落としこむ。

ここでは、S3GANまでの系譜を紹介する。

S2GAN(Semi-Supervised GAN)

入力画像の回転角推定を用いて特徴量抽出機・ラベル予測機を事前学習する。 Discriminatorに入力する画像のうち、ラベルが無いものについては事前学習した推定機の予測結果を用いてGANの学習を行う。

S2GAN-CO

S2GANにおいて事前学習した特徴量抽出機・ラベル予測機をGAN学習と同時に学習させる。 Discriminatorの最終出力層に分類機を追加。 ただし事前学習の方が精度は良かった。

S3GAN

S2GAN-COにおいて、同時に学習させたラベル予測機を回転角予測機に変更して学習させる。

結論

データ数に対して必要ラベル数を減らした。 S3に関して、ラベル付きデータが総データ数の10%しかない量での学習で、FIDベースの比較でBiGANと同等の精度、20%でBiGGANを超えた。

ほかいくつかの論文をサラッと紹介。

  • Flat Metric Minimization
  • Non Parametric Priors
  • MetricGAN

メモ

Resnetが上手く行く原因の統計的学習解析

Approximation and Non-parametric Estimation of ResNet-type Convolutional Neural Networks (ICML 2019) - Speaker Deck

ある種のスパース性がある。 FNN,CNNには、ある仮定のもとミニマックス最適(Minimax Optimal)が存在することは証明されている。ただし、非現実的な仮定のもとであったため、問題視されていた。 本研究では、その非現実的な仮定なしにResnetがミニマックス最適を持つことを示した。

ミニマックス最適とは - Qiita

真の分布は得られないため、経験的に得られた損失を最小化する。
→ ERM(empilical risk minimalizaton)。観測されるデータ点から結果を近似する。

  • Holder(ヘルダー)Condition
    → 理論的に達成できる限界を示す(MinimaxOptimality)
  • ニューラルネットにおけるMinimaxOptimality
    → 理論的に達成できる限界の定数倍までは達成できる。

Hölder condition - Wikipedia

最適なFNNの構造の中でスパース性に制限をかけることでMinimaxOptimalを得られることがわかった。 一方でスパース性に制限をかけることが非現実的。 Resnetはその点、スキップコネクションで秩序のあるスパース性を実現しているが、その秩序のあるスパース性でも同等のMinimaxOptimalを得られることを証明することができた。