卡卡米的記憶體: Deep Learning 筆記

IEEE Big Data Congress 2016 (海量資料國際研討會台北場)春季學校和主題演講
https://uknowiknow.com/courses/1a319e3ac7865c57

透過視覺化Neuron來觀察和學習 Deep Learning 的運作

http://playground.tensorflow.org/

每一個Neuron都是在做輸入x 輸出 y

y = g(wx + b) (y 跟 b 是純量，w 跟 x 是向量，g 是 Activation Function)

除了 Input Layer 和 Output Layer ，中間的 Layer 都叫作 Hidden Layer

給預期的Output，用 Gradient Descent 演算法去更新每一個 Neuron 的 w 跟 b ，目標是使得 Loss 最小。

Loss = (預期的Output - Output Layer)^2

Mini Batch 是每次計算 Loss 時不使用全部的Training Data，而是只使用部分的 Training Data

使用 Mini Batch 可以避免掉入一些 Local Minimum

Back Propagation 是更快的微分技術

Case Study：手寫數字辨識

題目描述：給一張手寫數字(一位數)的點陣圖，輸出對應的數字

網路結構：在 Network 上的 Input Layer 是所有 pixel (w*h個 Neuron )，輸出是10個 Neuron ，分別代表手寫數字為0~9的機率，當輸出向量代表 0 的 Neuron 輸出值最大時，代表辨識結果為0。

圍棋：

給盤勢(19*19)，輸出下一步下子位置(19*19)

利用多個是非題( Neuron )可以實作出選擇題

Network 結構目前沒有辦法靠學習來自動生成

Universality Theorem

Deep 比較好還是 Fat 比較好？

Fat ＋Short v.s. Thin + Tall

答案是 Thin + Tall 勝出

Deep network 隱含模組化( Modularization )的概念

一個選擇題被拆解成幾個是非題( Hidden Layer )之後再合成

Deep 之後需要的 Training Data 變少

有哪些調整方法可以讓 Training Data 的 Loss 降低：

Adagrad：調整 Learning Rate，讓每一個參數(w,b)有自己的Learning Rate

Momentum：加入移動的慣性到參數的update上

Corss Entropy：換掉兩個向量的距離估計函數，建議搭配 Softmax 使用

ReLU(Rectified Linear Unit)：線型的 Activation Function 才不會在多層次的時候造成計算微分時因為多層次的關係被遞減。

Maxout(自動生成 Activation Function)，用多個 Neuron 取最大的輸出去組成一個 Neuron

Residual Network：跳過2個 Layer，直接連接到後面的 Layer

Highway Network：跳過N個 Layer

有哪些調整方法可以讓 Testing Data 的 Loss 降低(對抗Overfitting)：

更多的 Data
生成更多的 Data (把原圖做一些旋轉)
生成更多的 Data (加入雜訊)

Early Stopping：把手上的 Training Data 拿一些做驗證，當驗證 Data 的表現沒有再進步時，就停止

Weight Decay：使得 Weight 的大小越小越好

L2 Regularization：一種 Weight Decay 方法，把 Weight 的長度加入 Loss Function

Ensemble：嘗試各種Network Structure，再把結果合起來。

Dropout：在每一次遞迴的時候都把 Network 上的 Neuron丟掉一部份，等同於Ensemble的終極版。

Recurrent Neural Network (RNN)：有記憶的NN

每一個 Neuron 對上一個輸入資料的輸出被保留在 Hidden Layer 上。或者說 Neuron 都跟上一次的自己建立連線。

Bidirectional RNN：時間逆序＋時間順序

LSTM：在 Neuron 跟自己建立關聯之前加上3個Gate：Input Gate，Output Gate，Forget Gate

BPTT：RNN的計算方法

CASE :

Slot Filling：輸入一個 word，輸出這個 word 是屬於哪一個 Slot？

Slot：dest(目的地)，time(時間)，other

input : arrive Taipei on November 2nd

理想中的output : other dest other time time

word 怎麼表示成向量？

1-of-N Encoding：{apple,bag,cat,dog,elephant}

apple = [1 0 0 0 0]

bag = [0 1 0 0 0]

cat = [0 0 1 0 0]

dog = [0 0 0 1 0]

elephant = [0 0 0 0 1]

word embedding：

為了不要讓word的向量太多維度，作降維的方法是把所有的word放到一個n-D空間上，語意上越接近的字就放在一起。

skip-gram text model：

Windows - Microsoft + Google = Android

Attention-based Model：讓機器可以回答問題

用DNN/RNN去選擇該讀取哪些資料，作為一個新的input，直到他找到答案。

Deep Reinforcement Learning

更難的問題

參考資料：

線上觀察deep learning的運作

http://playground.tensorflow.org/

Tensorflow 是一個用C++跟Python實作的deep learning library

https://www.tensorflow.org/

用起來跟numpy有90%像

SyntaxNet

https://github.com/tensorflow/models/tree/master/syntaxnet

OpenAI

https://gym.openai.com/

Parallel Game Engine

https://github.com/222464/PGE

電腦視覺

http://vision-explorer.reactive.ai/#/galaxy?_k=z38a5t

其他參考資料

MarI/O

https://www.youtube.com/watch?v=qv6UVOQ0F44

Neural Slime Volleyball

http://blog.otoro.net/2015/03/28/neural-slime-volleyball/

卡卡米的記憶體

2016/5/16

Deep Learning 筆記

沒有留言: