l1和l2正則化的區別是:
1、L1是模型各個參數的絕對值之和。L2是模型各個參數的平方和的開方值。
2、L1會趨向於產生少量的特徵,而其他的特徵都是0,因爲最優的參數值很大概率出現在座標軸上,這樣就會導致某一維的權重爲0 ,產生稀疏權重矩陣。L2會選擇更多的特徵,這些特徵都會接近於0。
3、最優的參數值很小概率出現在座標軸上,因此每一維的參數都不會是0。當最小化||w||時,就會使每一項趨近於0。