筆趣閣 > 都市小說 > 重生學神有系統 > 第267章數據增廣和集成學習

第267章數據增廣和集成學習（1 / 2）

推薦閱讀: 惡役少爺怎么可能會是圣女？ SSS天賦每周加一！我殺穿宇宙開局C級天賦，讓我通關S級怪談都九州第一了，我缺點德怎么了各位，歡迎來到新世界惡毒雌性深陷獸世修羅場妖尾：你管這叫星靈魔法？！重生千禧年：官場之路從片警開始春夜難纏教導培訓？誰教你這么改機娘的？

經過仔細斟酌，江寒確定了“優勝者”模型。

隨后，他就開始考慮，如何進一步優化這個網絡的性能。

像是網絡的主體結構、權重初始化方案、數據正則化的方法、激活函數的選擇……

這類關鍵因素，在之前的第一輪訓練中，就已經確定了下來，無需再做調整。

但除此之外，可以優化的地方依然不少。

比如稍微改變一點學習率，少量增加或減少隱藏神經元的個數，微調一下MiniBatch的大小……

這些都有可能對網絡的性能，產生微妙的影響。

而且，每一點細微的調整，會產生什么樣的效果，不實際訓練、測試一番，是無法預估的。

所以接下來，江寒將“優勝者”代碼復制了100份。

這樣一來，這個“優勝者”就擁有了100多個“雙胞胎兄弟”，或者說：分身。

隨后，他就采用不同的方案，對這100多份代碼，逐一進行了微調。

等到進行完第二輪訓練后，從中再次選出唯一優勝者。

有點類似“養蠱”。

策略已經定下了，但江寒并沒有馬上開啟第二輪訓練。

他還打算再做一個比較重要的實驗，那就是增廣數據。

KAGGLE官方提供了20萬條訓練數據，理論上說，對于絕大多數機器學習模型，這個數據量已經足夠使用了。

但誰會嫌棄數據太多呢？

能提供的數據越多，神經網絡的學習效果就越好，訓練得越充足，性能自然也就越強。

反正一般來說，不會變得更糟。

所以，何樂而不為？

所謂數據增廣，就是在不改變圖像類別的前提下，人為地擴充數據。

這樣做，常常可以有效地提高模型的泛化能力。

常用的數據增廣方式，包括水平翻轉、旋轉、縮放、平移、裁剪、顏色抖動……

當然，也可以將多種操作組合起來，從而獲得更多的數據。

例如，同時做小角度的旋轉和隨機尺度變換，再微調一下像素在HSV顏色空間中的飽和度、亮度、色調……

江寒很快用Python編寫了一份代碼，對訓練數據集進行了擴充。

原本的18萬條訓練數據，經過各種運算，足足演變出了將近200萬條數據。

這樣，第二輪訓練終于可以開始了。

江寒將100個“優勝者”分身依次啟動。

隨后，他琢磨了一下，又將剛才排名前15的模型，全都拉了過來。

包括上次排名第一的“書呆子”、排名第三的“黑馬中等生”，以及排位在4~15名的“其他學生”。

反正算力夠用，索性再給這些準“優秀生”一次機會，看看它們在增廣數據集上，又會有怎樣的表現。

當然，在開啟第二輪訓練之前，第一輪訓練出來的權重數據，必須先備份一下……

將這里的事情全部處理利索，時間已經接近中午11點。

江寒當下鎖門離開。

先去接夏雨菲放學，再順便做一頓豐盛的午飯。

除了正常的兩菜一湯，他還額外加了一道“紅燒冰島紅極參”，以慰勞自己操勞過度的大腦。

……

下午和晚上，江寒沒有出門。

主要在家看書、找資料，學習各種逆向、破解、黑客知識。

想要繼續領悟《數字混淆技術》，比較依賴數學水平和逆向技術。

上一章 ← 章節目錄 → 下一頁

最新小說: 龍族：從黑太子開始 SSS天賦每周加一！我殺穿宇宙芙莉蓮：開局支配阿烏拉寄宿媽媽的閨蜜家后，阿姨破產了重生：沒有道德，就不會被綁架繼母帶來仨義妹，而我有寵妹系統重生東京1986 遮天：我與無始爭帝路霍格沃茨：別叫我制杖師港綜：我系大梟雄

亚洲国产精品嫩草影院久久