Учење за памћење: Оквир за континуирано учење вођен синаптичком пластиком

Олексии Остапенко, Тассило Клеин, Моин Наби (МЛ Ресеарцх)

Људи имају изванредну способност да континуирано уче током свог животног века. Способност примене раније наученог знања на нове ситуације, окружења и задатке представљају кључну карактеристику људске интелигенције. На биолошком нивоу, ово се обично приписује способности селективног складиштења и управљања сећањима током довољно дугог временског периода у неуронским везама које се називају синапсе. За разлику од биолошких мозгова, конвенционалне вештачке неуронске мреже (АНН) не поседују способност контроле снаге синаптичких веза између неурона. То доводи до изузетно кратког животног века меморије у АНН-има - ефекат познат као катастрофално заборављање.

У прошлој деценији већина истраживања у области вештачке интелигенције (АИ) била је усмерена на превазилажење перформанси на нивоу човека на изолованим, јасно дефинисаним задацима, као што су играње рачунарских игара, сортирање нежељене поште, класификација мачака од паса и препознавање говора, само да поменемо само неке. Као резултат тога, највећи део АИ који нас окружује у нашем свакодневном животу можемо назвати вештачком уском интелигенцијом или слабим АИ. Снажни АИ се, насупрот томе, односи на АИ сличан човеку који може обављати било који интелигентан задатак, а истовремено је у стању да учи континуирано, селективно заборавља, брзо се прилагођавајући новим задацима и користећи претходна искуства. Ова својства тек су недавно почела да добијају пажњу истраживача АИ.

Зашто стално учење? Кључ за стално променљиве сценарије

Заборав и пренос недостатка знања представљају један од главних изазова на путу од слабог АИ до јаког АИ. За разлику од људи који селективно заборављају, машине катастрофално заборављају. Сходно томе, док „беба учи да пузе, хода и онда трчи“ (~ Даве Ватерс), АИ би потпуно заборавила да пузи једном кад научи да хода, и заборавит ће да хода кад једном научи како трчати. Пре него што размотримо могућа решења изазова континуираног цјеложивотног учења, размотримо једноставан пример претраживања каталога одеће на бази АИ.

Модел машинског учења обучен на скупу података који садржи одјевне предмете из сезоне (А) био би изузетно успјешан у претраживању међу (А) производима ове сезоне. Међутим, кад се сезона промени, модни трендови могу се такође променити. Након што се модни трендови промијене, у каталог се могу додати нове категорије производа, модели и стилови (нпр. Високе потпетице умјесто тенисица, дуге јакне умјесто кратких јакна итд.). Модел обучен на основу података прве сезоне (А) не би имао добре резултате током претраживања предмета који су додани у новој сезони. У ствари, једноставно обучавање нашег модела о подацима из нове сезоне довело би до катастрофалног заборављања могућности претраживања међу ставкама из претходне сезоне.

Уобичајени начин решавања заборава?

Једна од најранијих техника ублажавања катастрофалног заборава у АНН-има позната је као понављање искуства или „проба“. Настављајући са нашим примером претраживања каталога, како бисмо задржали информације научене у првој сезони, модел машинског учења се једноставно преквалификује од нуле на мешавини података из обе сезоне, тј. Претходно научено знање прелази на модел обучен на подаци нове сезоне. Генерално, преквалификација модела сваки пут када би се „смене“ дистрибуције података резултирале експлозијом трошкова складиштења података и напора потребног за одржавање интелигентних система, а да не спомињемо драматично смањење скалабилности система. Коначно, складиштење необрађених података из претходних задатака може у великој мјери нарушити захтјеве приватности података у стварном свијету.

У том контексту, многи истраживачи су се фокусирали на симулирање неуронске пластичности у АНН-има и тако ублажили потребу за чувањем необрађених података (1,2,3,4,5,6). Обично се то ради у такозваном сетупу „инкрементални задатак“, где се сваки ново додавани део података сматра засебним задатком, а информације о ознаци задатка претпостављају се да буду доступне у време тестирања. Враћајући се примеру претраживања каталога, за то би биле потребне информације о налепници сезоне (налепници са задацима) у сваки упит; стога би за класификацију одређеног одјевног предмета били потребни а приори подаци о сезони којој припада (ознака задатка). Имајући такву „ознаку задатка“ аутоматски би се смањио излаз модела на класе које припадају претпостављеном задатку. Стога би у нашем горњем примеру модел ограничио само на одређену сезону. Ове претпоставке се ретко могу испунити у стварним апликацијама.

Посебна линија рада бави се сценаријем који је стварнији у свету. У овом сценарију „класа-инкрементални“, класификацијски излаз модела се континуирано проширује како се учи нова класа. У том је контексту заједничка стратегија увођење такозване генеративне компоненте меморије (нпр. 7,8,9). Овде, уместо складиштења сирових података, генеративан модел као што је ГАН или ВАЕ (види претходни блогпост) се обучава да би створио искуство које треба репродуковати. Дакле, у каталошком примеру, ставке (са одговарајућом класом) прве сезоне биће генерисане и репродуковане у модел.

Постојећи приступи генеративне меморије углавном се ослањају на идеју дубоке генеративне репродукције где се генеративни модел понавља понавља на мешавини тренутно доступних стварних података (нова сезона) и епизода понављања које је синтетизовао претходни генератор (прошле сезоне). Међутим, осим што су високо ефикасни у тренингу, ови приступи су озбиљно склони ефекту познатом као „семантички дрифт“. „Семантички помицање“ односи се на квалитет слика генерисаних током сваке репродукције меморије у зависности од претходно генерисаних слика, што изазива подложност ширењу грешака и тако резултира губитком квалитета и заборављањем.

Предложено решење - Учење пластике у генеративној меморијској мрежи

До сада смо научили да је понављање искуства једноставна и корисна стратегија за превазилажење заборава у АНН-овима уопште, а посебно у изазовној „класи-инкременталној“ ситуацији. Ипак, ова стратегија је применљива само када епизоде ​​понављања не чувају као необрађене податке, већ у облику релевантних и ефикасно сачуваних образаца меморије.

Да бисмо се позабавили овим проблемом, у нашем недавном раду предложили смо методу која се зове Динамичка генеративна меморија (ДГМ) - континуирани одрживи оквир сталног учења који симулира синаптичку пластичност помоћу маски које се могу научити и које се примењују на параметре генеративне мреже (ГАН) . Маскирање тешке пажње идентификује мрежне сегменте који су неопходни за памћење тренутно научених информација и спречава њихово ажурирање током будућег учења. Мрежа је додатно подстакнута да поново искористе раније научено знање, које је било похрањено у тако „резервисане“ мрежне сегменте дајући позитиван напредни пренос знања. Отуда, у примјеру нашег каталога производа, знање о каталошким артиклима из претходне сезоне могло би се ефикасно поново употријебити за учење о производима из нове сезоне. Све у свему, ДГМ може да научи о новим задацима без потребе за поновним играњем старог знања, побољшавајући тако ефикасност тренинга и постајући робуснији у случају катастрофалног заборава.

Сходно томе, ДГМ може генерисати информативне и разнолике узорке претходно научених категорија у било којем кораку континуираног учења, као што је приказано на слици испод. Ако се ови узорци примене у модел решавања задатака (Д), добија се модел који може задржати високу класификацијску представу у свим класама које су виђене током континуираног процеса учења.

О скалабилности

С обзиром на ограничену величину мреже, неизбежно је да са све већим бројем задатака за учење капацитет модела у одређеном тренутку буде потрошен. Ово питање се погоршава приликом симулирања неуронске пластичности са маскирањем пажње на нивоу параметара. Како би гарантовао довољан капацитет и константну изражајну снагу основне мреже, ДГМ одржава број "слободних" параметара (тј. Једном који се може ефективно ажурирати) константним ширењем мреже тачно бројем параметара који су резервисани за претходну задатак. Кључна идеја овдје је да се с датим позитивним напријед пријеносом знања (тј. Поновна употреба параметара) број резервација параметара за нове задатке смањује с временом и раст мреже би се требао засићити у одређеној точки.

За техничке детаље о ДГМ методи, молимо погледајте цео чланак на арКсив-у.

Иако је још увек далеко од решавања проблема катастрофалног заборављања и упркос неколико ограничења, ДГМ показује ефикасан раст мреже и робусност против катастрофалног заборава у изазовном подешавању „класе-инкременталних“. Верујемо да нам представљена истраживања могу помоћи да унапредимо наше разумевање континуираног учења - суштинске способности на путу ка постизању снажног АИ-ја, која је способна да учи (и заборави) адаптивно и прогресивно током времена.

Наш рад на цјеложивотном учењу представљен је на ЦВПР 2019.

О аутору: Олексии Остапенко, ванредни истраживачки инжењер у истраживачком тиму за САП машинско учење, ради на изазовима континуираног цјеложивотног учења о којима се расправља у овом посту у свом раду који ће бити представљен на овогодишњем ЦВПР-у.