• 筆趣閣 > 都市小說 > 重生學神有系統 > 第392章 深度卷積神經網絡

    第392章 深度卷積神經網絡(3 / 3)

    在網絡層次較淺時,問題可能還不是很大,網絡層次一深,就容易梯度爆炸或者梯度消失。

    江寒在研制OCR軟件的時候,就發現了這個問題,所以這一次,他準備引入ReLU,作為卷積層的激活函數。

    ReLU(RectifiedLinearUnit),一般稱作“線性整流函數”,也可以翻譯成“修正線性單元”。

    這個函數其實很簡單,表達式為F(x)=max(0,x)。

    當自變量大于0時,它就是一個線性函數,相當于一次函數y=x;

    當自變量≤0時,y≡0。

    這個函數其實不是什么新鮮東西,只是在機器學習中,以前沒人用過罷了。

    所以這也算是一點小小的創舉……

    要說ReLU的好處嘛,那自然是不少的了。

    一方面,可以有效緩解梯度消失、梯度爆炸。

    并且,還能讓梯度下降得更快,有效地提高訓練效率。

    另一方面,也比較符合仿生學原理。

    生物神經細胞的工作模式,就和這個函數差不多……

    江寒思考了一下,又在網絡的最后幾個全連接層中,使用了Dropout方法。

    所謂Dropout,就是在前向傳導時,以某個概率P,隨機忽略部分神經元。

    這樣做,可以有效地避免過擬合。

    在編寫池化層時,江寒考慮了一下,使用了重疊的最大池化方法,而沒有使用他此前在論文中提到的平均池化。

    因為后者有個副作用,容易導致模糊化。

    同時,這樣做還有另外一些好處。

    比如,由于有部分重疊和覆蓋,提取出來的特征,往往也會更加豐富……

    在編寫標準化層的時候,江寒考慮再三,運用了LRN機制,也就是局部響應歸一化。

    這樣做的目的,是讓局部神經元的活動,產生某種競爭機制,使得強者愈強、弱者愈弱。

    歸根結底,是為了提高模型的泛化能力。

    為了盡可能加快訓練速度,江寒甚至考慮過使用GPU編程。

    雖然這個世界的GPU廠商,還沒有發明CUDA技術,但硬件條件已經完全具備了。

    畢竟從理論上來說,能挖礦的顯卡,就能用于大數據計算。

    只要編寫出合適的驅動和代碼,就能利用GPU,來進行大規模并行運算,顯著地提高神經網絡的訓練速度。

    可惜的是,單個顯卡的顯存比較有限,也就是說,可能承載不了太大的人工神經網絡。

    而這個深度網絡……

    即使最保守的估計,也需要4~5GB的顯存。

    這樣一來,就必須用兩塊顯卡,交下火才行了……

    江寒在虛擬空間中忙碌了幾十個小時,終于把這個空前巨大的人工神經網絡搭建了起來。

    當然,今天是沒法開始訓練了,只能等到明天再說……

    江寒想了想,又買了很多空白圖紙,以及一些中性筆,開始草擬論文的初稿。

    在這次的比賽中,沒啥意外的話,自己這個“深度卷積神經網絡”,應該能拿到不錯的成績。

    到時候,萬一有需要的話,現寫論文就顯得有點不夠從容了。

    所以江寒決定,今晚就把這個網絡的框架,寫成論文,保存起來。

    等到訓練完成,收集到足夠的數據,再稍微修改下,就可以找個合適的時機,投出去了……

    最新小說: 蜀山:滅絕 透視賭石王 離婚后,娶了前妻的天后小姨 LOL:什么叫折磨流選手啊!蘇墨阿布 從私吞千萬億舔狗金開始當神豪 婚紗追星網暴我?京城世家齊出手 當網絡皇帝,享缺德人生 鶴飲春風 戰國生存指南 斗羅:制霸斗羅從召喚孔德明開始
    亚洲国产精品嫩草影院久久