【懶人包系列】深度學習隱藏層：深度 v.s 廣度

來自李宏毅老師熱騰騰的影片 — 【機器學習 2022】魚與熊掌可以兼得的深度學習，主要在解釋當deep learning model的 hidden layers，當架構得很多層跟只架構一層但放很多neuron，這兩者的比較。

論文證明

透過2011年的論文，裡面的語音辨識任務，已經證明運用相近的參數量的model，深度越深的model的error rate比只有一層但有很多參數的model要來得低。

原理視覺化證明

直接用三層的layers，一層layer有兩個relu的neuron，實際推導最終function的樣貌，並證明一個有k層layers的model (一層2個neuron)，這個model所得到的function，會等同於只有一層layers但有2的k次方個neuron的model所得到的function。

結論

最終說明了deep hidden layers的優勢，因為不需要過多的參數，因此模型較不複雜，更不容易overfitting，也提醒我們deep learning不一定就要用大數據和複雜模型的迷思。