Ново разумевање серије нормализације

Пакетна нормализација (БН) уведена је [1] још 2015. године. Од тада се користи у најдубљим моделима учења за побољшање обуке и робусности избора брзине учења као и иницијализације параметара.

БН је дизајниран да смањи унутрашњу коваријатну промену (ИЦС) уноса сваког слоја нормализајући прва два тренутка - средњу и варијансу. Истовремено не утиче на способност мреже да произведе жељену дистрибуцију активације коришћењем пара параметара који се могу научити (гама и бета).

Недавни рад [2] баца ново свјетло на БН и добитак перформанси добијен употребом технике нормализације. На основу експеримената, извештај:

  • ИЦС није добар предиктор успешности тренинга
  • Добитак перформанси добијен употребом БН-а не потиче од смањења ИЦС-а
  • БН радије пружа ефект изглађивања на пејзажу оптимизације, што побољшава робусност модела до хиперпараметара као што је стопа учења.

Експеримент 1

На слици 1 испод (преузето из [2]) приказане су три групе тренинга ВГГ мреже. Прва мрежа се обучава без БН-а, друга се тренира са БН-ом; на крају, трећа мрежа убризгава дистрибутивну нестабилност након сваког коришћеног БН-а додавањем варирајућег времена, нулте вредности и шум варијанце. Бука у суштини изазива високи ИЦС, можда већи од стандардног подешавања.

Слика 1 [2], резултати експеримента 1

Резултати показују да чак и код повећаног ИЦС-а додавањем буке, добијање перформанси се и даље добија (ружичаста линија). Ово указује да смањење ИЦС није фактор који изазива побољшање перформанси.

Експеримент 2

За сваки слој неуронске мреже, ИЦС биљежи промјену самог проблема оптимизације узроковане промјеном улаза у сваки слој јер се параметри претходних слојева ажурирају помоћу спуштања градијента. Као реакција на овај 'помак', сваки слој мора прилагодити своје параметре, често узрокујући нестајање или експлозију градијената [1].

Ова идеја промене у пејзажном оптимизацији такође би се одразила на промене градијената параметара слоја. Већа промена градијента одражавала би већу промену у оптимизацијском пејсажу. [2] снима ово мерењем разлике између градијената сваког слоја пре (Г) и после ажурирања на све претходне слојеве (Г´). Мања вредност разлике л2 указала би на мањи ИЦС, јер пејзаж остаје сличан.

Слика 2 [2], резултати експеримента 2

[2] даље истражује везу између ИЦС и БН цртањем л2 разлике (и косинусног угла) два градијента, приказаног на слици 2. Из горње слике се види да употреба БН не указује на смањење ИЦС.

Па шта онда ради Нормализација серије?

Оптимизациони пејзаж дубоке неуронске мреже може се састојати од бројних равних региона и оштрих удараца, због којих проблем није конвексан. Такви региони доводе до нестајања нагиба (равне регије) или експлозије нагиба (оштри падини). То повећава осетљивост на брзину учења и иницијализацију параметара, чинећи оптимизацију нестабилном.

[2] односи се на већу липсцхитзнесс градијената користећи БН, што ефективно значи већу глаткоћу пејзажа оптимизације. То се може приметити на слици 3, која црта градијент губитка у кораку тренинга и мери како се губитак мијења дуж тог правца градијента.

Слика 3 [2]

Са слике 3, БН даје глаткији профил. То чини градијент предвидљивијим, то јест, на сваком кораку је вероватније да градијент остаје сличан за скоро будуће кораке. Таква предвидљивост омогућава прављење већих корака у правцу градијента без губитка стабилности.

Коначно, [2] такође закључује да ефекат изравнавања БН може бити разлог боље генерализације мрежа. То је сјајно јер БН гура оптимизацију ка равном минимуму.

Референце:
[1] Иоффе С, Сзегеди Ц. Нормализација серије: Убрзавање тренинга дубоке мреже смањењем унутрашњег коваријатног помака. арКсив претпринт арКсив: 1502.03167. 2015 феб 11
[2] Сантуркар С, Цсипрас Д, Илиас А, Мадри А. Како нормализација шарже помаже оптимизацији? арКсив препринт арКсив: 1805.11604. 2018. 29. маја.