2.2.4 調(diào)參與最終模型
大多數(shù)學習算法都有些參數(shù)(parameter)需要設定,參數(shù)配置不同,學得模型的性能往往有顯著差別.因此,在進行模型評估與選擇時,除了要對適用學習算法進行選擇,還需對算法參數(shù)進行設定,這就是通常所說的“參數(shù)調(diào)節(jié)”或簡稱“調(diào)參”(parameter tuning).
讀者可能馬上想到,調(diào)參和算法選擇沒什么本質(zhì)區(qū)別:對每種參數(shù)配置都訓練出模型,然后把對應最好模型的參數(shù)作為結果,這樣的考慮基本是正確的,機器學習常涉及兩掌參數(shù):一類是算法的參霆 但有一點需注意:學習算法的很多參數(shù)是在實數(shù)范圍內(nèi)取值,因此,對每種參數(shù)亦稱”超參數(shù)“,數(shù)目常在配置都訓練出模型來是不可行的,現(xiàn)實中常用的做法,是對每個參數(shù)選定一個10以內(nèi):另一類是模型昏參數(shù),數(shù)目可能很多』篇 范圍和變化步長,例如在[0;0.2]范圍內(nèi)以0.05為步長,則實際要評估的候選參如大型“深度學習”模型 數(shù)值有5個,最終是從這5個候選值中產(chǎn)生選定值.顯然,這樣選定的參數(shù)值往甚至有上百億個參數(shù),一者調(diào)參方式相似均是零 往不是“最佳”值,但這是在計算開銷和性能估計之間進行折中的結果,通過生多個模型之后基于某萎 這個折中,學習過程才變得可行,事實上,即便在進行這樣的折中后,調(diào)參往往評估方法來進行選擇:習同之處在于前者通常是由 仍很困難.可以簡單估算一下:假定算法有3個參數(shù),每個參數(shù)僅考慮5個候選人工設定多個參數(shù)候選釜值,這樣對每一組訓練/測試集就有53:125個模型需考察;很多強大的學習算后產(chǎn)生模型,后者則是通過學習來產(chǎn)生多個候選模法有不少參數(shù)需設定,這將導致極大的調(diào)參工程量,以至于在不少應用任務中,型(例如神經(jīng)網(wǎng)絡在不同 參數(shù){輪數(shù)停止訓練).