Јохн Аллспав, суоснивач, Лабораторији за прилагодљиве капацитете

Како се ваши системи одржавају из дана у дан

Прво, мало о Јохну Аллспаву, суоснивачу лабораторија за прилагодљиве капацитете и бившем директору компаније Етси.

Као инжењерски инжењер и истраживач са преко 20 година искуства у изградњи и водећим тимовима који се баве софтверским и системским инжењерингом, Аллспав је провео последњу деценију доводећи увиде од људских фактора, когнитивног системског инжењерства и отпорности инжењеринга на домену софтверског инжењерства и операције.

Такође аутор две књиге, „Уметност планирања капацитета: Скалирање веб ресурса“ и „Веб операције“ (О’Реилли Медиа), Аллспав наставља да доприноси ИТ и ДевОпс заједници кроз разговор и сарадњу на новим, узбудљивим истраживањима.

Имали смо довољно среће да угостимо Јохна на самиту ДевОпс Ентерприсе у Сан Франциску, где је изашао на бину да разговара о „Како системи настављају да се раде из дана у дан.“ Испод смо преписали кључне потезе и главне износе његове презентације. .

Јохн Аллспав у ДОЕС17 Сан Францисцо

Јохн Аллспав

Како се ваши системи одржавају из дана у дан

Оно о чему желим да причам је ново. Различито је и осецам се веома, веома сназно због тога.

Да бих помогао постављању позорнице, моја теза за диплому о људским факторима и безбедности система била је „Компензација под притиском: хеуристика и запажања тимова који решавају недостатке на Интернет услузи“.

Неки од вас су можда чули за ово, како се назива Стелла Репорт.

На високом нивоу, овај извештај је резултат вишегодишњег пројекта конзорцијума индустријских партнера. ИБМ, Етси и ИЕКС, трговачка компанија, трговачка берза на Менхетну. Током ове године, људи из лабораторија за инжењеринг когнитивних система Универзитета Охио, Давид Воодс, Рицхард Цоок и бројни други људи дубоко су погледали инцидент у свакој од тих организација.

Пронашли су ових шест тема и били су заједнички у свима њима.

Свакако да су резултати прилично важни. Тако је урађено то истраживање, па желим да сви погледате.

Ево мојих главних навода из извештаја:

  1. Морамо почети озбиљно схватати људске перформансе у овој индустрији. Ако то не учинимо, наставићемо да видимо крхке системе са све већим утицајем на наша предузећа и друштво.
  2. То можемо учинити тако што ћемо погледати инциденте који надилазе оно што тренутно радимо у постмортемима или прегледу након инцидента или прегледу после акције.
  3. Постоје методе и приступи изучавања отпорности у другим областима, али за њих је потребна стварна посвећеност. Ово је и неопходно и тешко, али показаће се да је то конкурентска предност за предузећа која то добро раде.

Прво бих хтео да почнем са основом, мало вокабулара који ће бити важан док вас пролазим кроз ово. Описаћу врсту слике, репрезентације, попут менталног модела ваших организација, а имаће и регион изнад линије и регион испод линије.

Ако замислите шта смо овде приказали, ово је ваш производ, услуга, ваш АПИ или било шта што ваше предузеће добија вредност и даје купцима. У реду? Унутра је оно што видите ваш код. Видите своју технологију. Видите податке и неке различите начине испоруке, зар не? Вероватно преко интернета или на неки други начин. Али ако останемо овде, нико ми неће веровати да је то оно што зовемо систем, јер је то у реду, али није заиста комплетан.

Оно што је заиста повезано и о чему су многи људи причали овде у заједници ДевОпс Ентерприсе Суммит су све ствари које радимо да би манипулирали оним што се тамо догађа, и зато имамо алате за тестирање. Имамо алате за надгледање Имамо алате за распоређивање и све ствари које су на неки начин повезане. То су ствари које користимо. Могло би се рећи да је то систем, јер многи од нас проводе своје време усредсређени на оне ствари које се не налазе унутар малог мјехурића, већ на све ствари које су око њега, али ако бисмо остали при томе само ми неће моћи да види где се дешава прави посао.

Оно што ћемо овде урадити је, повући ћемо линију коју називамо линијом репрезентације, а затим копати мало дубље. Оно што овде видимо јесте ти. Сви људи који спремају ствари да додају у систем, да промене систем. Бавите се архитектонским оквиром. Ви пратите Пратите шта ради, како то ради и шта се дешава са њима.

Сад ћете приметити да сваки од ових људи има неку врсту менталне представе о томе што је тај систем. Ако мало детаљније погледате, видећете да ниједан од њих није исти. Успут, то је врло карактеристично за ове врсте улога. Нико нема исти приказ онога што је испод црте.

Укратко, ово је наш модел света и он укључује не само ствари које се тамо одвијају, већ све вас, врсте активности које обављате, когнитивни посао који радите да бисте одржали тај свет функционисањем . Ако се још мало поиграмо са овим, завршимо са оваквим моделом. Овај модел има линију репрезентације која пролази кроз средину, а ви комуницирате са светом испод линије преко скупа репрезентација.

Ваше интеракције никада нису са самим стварима. Ви заправо не мењате системе.

Оно што ви радите је да комуницирате са репрезентацијом и та репрезентација је нешто што се догађа испод. О тим зеленим стварима можете размишљати као о екранима које гледате током дана, али једине информације које имате о систему долазе из тих приказа. Они су само мала рупа за кључеве. Јел тако?

Оно што је значајно у томе је да све активности које обављате, све посматрање, закључивање, предвиђање, планирање, исправљање, све те ствари морају да се обављају преко тих репрезентација, тако да постоји свет изнад црте и свет испод црте, и иако ви и углавном разговарамо о свету испод црте као да је веома стваран, као да је врло конкретан, као да је то нешто, ту је и изненађење.

Овде је велика ствар - никад је нећете видети.

Не постоји У правом смислу, не постоји испод линије коју стварно можете додирнути. Ви никада, никада не видите код да ради. Никада не видите да систем стварно ради. Те ствари никада не дирате.

Оно што ви радите је да манипулишете светом који не можете видети путем скупа репрезентација, и зато вам је потребно да изградите те менталне моделе, те концепције, разумевања о ономе што се догађа. То су ствари које покрећу ову манипулацију. То није свет испод линије који то чини. То је ваша концептуална способност да разумете ствари које су се догађале у прошлости, ствари које сада радите и зашто то радите, шта је важно, и зашто је заправо важно.

Једном када усвојите ову перспективу, након што одступите од идеје да је испод линије оно чиме се бавите и схватите да заиста радите изнад линије, све врсте ствари се мењају.

Оно што видите у извештају Стелла и том пројекту и другим пројектима са којима смо ангажовани узима то гледиште и разуме шта заиста значи озбиљно схватити горњи свет. Ово је велики одмак од многих онога што сте све видјели у прошлости, али мислим да је то плодоносан правац који морамо кренути.

Другим речима, ове когнитивне активности (видети доле), како код појединаца, тако и у колективним тимовима који раде нагоре или надоле организације су оно што посао заиста функционише. Сада ово детаљно проучавам овде дуже време и могу вам ово рећи. Не функционира онако како ми мислимо да ради.

Најзад, за постављање овог оквира, најважнији део ове идеје је да се све то временом мења. То је динамичан процес који је у току. Ово је јединица за анализу. Једном када узмемо тај оквир, можемо вам поставити неколико питања. Можемо поставити нека питања око ове линије.

„Како наш софтвер стварно функционира, насупрот томе како је описан у викију, документацији и дијаграмима? Знамо да они нису свеобухватни, нису свеобухватно тачни. "

„Како се наш софтвер стварно покида, насупрот томе како смо мислили да се поквари када смо дизајнирали заштитне и заштитне склопке и заштитне шине?“

„Шта да радимо да све остане у функцији?“

Питање: Замислите своју организацију. Шта би се догодило када би данас у шест сати све ваше компаније скинуле руке са тастатуре? Не одговарају ни на једној страници. Не гледају на упозорења. Не додирују ниједан његов део, шифру апликације или мреже или било шта од тога. Јесте ли сигурни да ће ваша услуга бити у функцији након једног дана?

Питање је тада како открити шта се дешава изнад црте. Па, постоји неколико ствари. Можемо научити из проучавања других домена са високим темпом и са последицама, а ако то учинимо, можемо видети да можемо проучавати инциденте. (Напомена: када кажем „инциденти“, мислим на прекиде, деградације, кршења, несреће, скоро пропусте и пропусте - у основи неупадљиви или неочекивани догађаји).

Шта инциденте чини занимљивим? Па, очигледан је губитак утицаја на приходе и репутацију на одређеном послу. Желим да изнесем још неколико разлога због којих су инциденти занимљиви. Један је да инциденти обликују дизајн нових компонентних подсистема и архитектура. Другим речима, јучерашњи инциденти обавештавају архитектуре сутрашњег дана. Односно, инциденти помажу у потицању наше маште о томе како да побољшамо наше системе, и, зато, мислим да се инциденти испод линије мењају изнад линије.

У томе је ствар Ово може коштати стварни новац. Инциденти могу имати скоро прећутне или невидљиве ефекте, понекад значајне. Тренутно, много људи дели монолит у микро-услуге. Многи људи то раде зато што пружа одређену робусност коју немате. Одакле ти то?

Обавештени сте о инцидентима.

Други разлог за посматрање инцидената је тај што они имају тенденцију да рађају нове облике прописа, политика, норми, поштовања закона, ревизије, ограничења итд. Други начин да се ово каже је да јучерашњи инциденти обавештавају правила сутра, која утичу на запошљавање , буџети, планирање, путокази и још много тога. Дозволите ми да вам дам пример: СЕЦ је у финансијском трговању увео Регулативни СЦИ. СЦИ је вероватно најопсежнији и детаљнији део усаглашавања у модерној ери софтвера. СЕЦ је отишао и био је врло експлицитан. Ово имамо као реакцију на пад блица 2010. године на Книгхт Цапитал, БАТС ИПО, Фацебоок ИПО. То је реакција на инциденте.

Чак и ако се вратите мало даље, често се наводи да је ПЦИ ДСС настао када су МастерЦард и Виса упоређивали белешке, схватили да су изгубили око 750 милиона долара у току 10 година, тако да инциденти имају значајне прилике, и могу, као бивши ЦТО из јавног предузећа, могу да вас уверим да је ово веома скуп, збуњујући и неминовно оптерећујући албатрос за све ваше организације. И инциденти су значајни на овај начин, али ако о инцидентима размишљамо као о приликама, ако о инцидентима размишљамо као о порукама, кодираној поруци која се испод линије шаље изнад линије, а ваш задатак је да их декодујете, ако размишљате о инцидентима као ствари које активно покушавају да вам скрену пажњу на делове система за које сте мислили да довољно разумете, али нисте, то су подсетници да морате стално да преиспитујете колико сте сигурни у то како све то функционише.

Ако сада заузмете овај поглед, отвара се гомила ствари. Постоји прилика за нову обуку, нове алате, нове организационе структуре, нову динамику финансирања и евентуалне увиде које ваши конкуренти немају.

Инциденти нам помажу да процијенимо делту између како ваш систем функционише и како мислимо да ваш систем функционише, а ова делта је готово увијек већа него што ми замислимо. Желим да тврдим можда другачији став на који бисте могли бити навикли, и то је ово. Инциденти су непланирана улагања у предузеће, у опстанак ваше компаније. Оне су изузетно драгоцене могућности за разумевање како функционише ваш систем, које рањивости у вама постоје и које конкурентске предности не тражите.

Ако размишљате о инцидентима, они сагоревају новац, време, репутацију, особље итд. То су неизбежни огромни трошкови. Нешто је занимљиво у вези ове врсте улагања. Не контролирате величину инвестиције, па остаје питање како ћете максимизирати РОИ на тој инвестицији?

Када погледамо инциденте, то су врста питања која чујемо и то је сасвим у складу са оним што истраживачи проналазе у другим сложеним системима, доменима. Шта то ради? Зашто то ради? Шта ће даље чинити? Како је дошло у ово стање? Шта се дешава? Ако радимо са И, да ли ће нам то помоћи да схватимо шта да радимо? Погоршава ли се? Изгледа да је поправљено, али зар не? Ако урадимо Кс, хоћемо ли спречити да се погорша, или ће га погоршати? Кога још да зовемо да нам то може помоћи? Да ли је ово наше питање или смо нападнути? То је у складу са многим другим пољима. Авијација, контрола ваздушног саобраћаја, посебно у доменима богатим аутоматизацијом.

Још једна ствар која се приметно односи се на то да је почетак било ког инцидента често неизвестан или двосмислен да ли је то тај који нас тоне. На почетку инцидента то једноставно не знамо, посебно ако садржи огромне количине несигурности и огромне количине нејасноће. Ако је неизвесно и двосмислено, значи да смо исцрпили своје менталне моделе. Не уклапају се са оним што видимо и постављају се та питања. Само ће нас уназад увидјети да ли је то догађај срушио компанију или је то било уторко поподне.

Инциденти омогућавају калибрацију о томе како су одлуке фокусиране, о томе како је фокусирана пажња, о томе како је фокусирана координација, о томе како је фокусирана ескалација. Утицај временског притиска, утицај неизвесности, утицај двосмислености и последице последица. Истраживање потврђује ове могућности.

"Требало би дубоко да сагледамо на инциденте као на" не-рутинске изазовне догађаје, јер ови тешки случајеви имају највећи потенцијал откривања елемената експертизе и повезаних когнитивних појава. "
- Гари Клеин, зачетник натуралистичких истраживања које доносе одлуке.

Постоји породица добро истрошених метода, приступа и техника. Когнитивна анализа задатака. Тражење процеса. Разговорна анализа. Метода критичне одлуке. Како мислимо да постмортеми имају вредност изгледа некако овако:

Дешава се инцидент. Можда ће неко саставити временску линију. Имамо се мало састанка. Можда имате неки образац и то испуните, а онда би неко могао да направи извештај или не, и онда на крају имате, да, акцијске ставке. Ми мислимо да је највећа вредност, можда можда најцрња вредност, где се налазите у току испитивања и људи ходају кроз временску линију и ви сте попут: „Ох, Боже. То све знамо. "

Ово није оно што истражује. Истраживање показује да ако прикупимо субјективне и објективне податке са више места, податке о понашању, шта су људи рекли, шта су људи радили, где су гледали, које путеве дијагнозе су пратили и нису били плодни? Добро олакшани разговори омогућавају људима да контрасту и упореде њихове менталне моделе који су нужно погрешни. Можете да произведете различите резултате, укључујући ствари попут боотцамп-а, уграђених материјала, нове обуке за изнајмљивање. Можете имати повратне информације о олакшицама ако направите програм за обуку фацилитатора. Можете направити промене мапе пута, заиста значајне промене на основу онога што научите.

Могу вам то рећи из неког искуства. Новом инжењеру или инжењеру није ништа паметније од тек започетог у каријери, него да будете у соби са инжењером ветераном који зна све шаре и објаснити ствари које можда никада нису наглас рекли. Имају знање. Они могу цртати слике и дијаграме које никад раније нису цртали, јер мисле да их сви други знају. Погоди шта? Они не Највећа вредност је заправо овде, јер квалитет ових резултата зависи од квалитета те рекалибрације. Ово је отвор за поновну калибрацију менталних модела.

Из извештаја Стелла „обавештава и поново калибрише моделе људи о начину на који систем функционише, њиховом разумевању како је рањив и које су могућности на располагању за истраживање“.

У многим истраживањима, у свим истраживањима која су садржана у извештају Стелла, а уклапа се и у моје искуство на Етси-у, које је једно од, најјачих размишљања људи који то раде на лакши начин да то упоређују и контрастно „Нисам знао да то функционира на тај начин.“ Тада увек постоји други „Како је то икада радио?“ Што је смешно док не схватите да је то озбиљно. То значи, начин на који нисам само мислила да функционише на други начин. Сада, не могу ни да замислим, не могу ни да замислим слику како би то могло функционисати. То би требало бити узнемирујуће. Успут, желим рећи да ово није усклађивање. Као што рекох, кроз репрезентације, ми нужно имамо непотпуне менталне моделе. Идеја није да имају исте менталне моделе, јер су увек непотпуни, јер се ствари увек мењају и зато што ће бити погрешне. Не желимо да сви имају исти ментални модел јер тада сви имају исте слепе мрље.

Без кривње - повратак на блог блог који сам написао 2012. године

"Безгрешни" су улози стола. Потребно је, али није довољно. Могли бисте да изградите окружење, културу, загрљај, неку врсту организације добродошлице која подржава и омогућава људима да причају приче у свим неуредним детаљима, понекад срамотним детаљима, без страха од одмазде, тако да заиста можете напредовати, и у разумевању шта се дешава, можете поставити тај услов и још увек не учите много. То није довољно Потребно је, али није довољно Оно о чему говорим је много више напора него типични прегледи после инцидента. Јел тако? Овде аналитичар, фацилитатор може припремити, упоредити, организовати, анализирати податке о понашању. Шта људи кажу, шта људи раде. Постоји низ података које могу да просипају како би се припремили за састанке, групни и појединачни извештај, који иду даље ... Постмортеми наговештавају богатство инцидената. Праћење овога захтева много посла.

Узгред, сви су углавном толико исцрпљени након заиста, стресног пада или инцидента или догађаја да понекад све постане кристално јасно. То је снага уназад, и зато што делује тако кристално јасно, не чини се продуктивним одржавање испитивања, јер мислите да то већ све знате. Друго питање је да су постмортем брифинги временски ограничени. Конференцијску собу имате само сат или два. Сви су стварно заузети, а сат откуцава, тако да је ово изазов за то врло добро, чак и с обзиром на те методе истраживања.

Друго питање, посебно ако направите програм обуке за олакшавање прегледа, као што сам то урадио у Етсију, и даље се појављују изазови. Оно што волим да називам је: „Свако има своју мистерију за разрешавање“ или „Не губите време на детаље које већ знам.“ На цртани начин можете размишљати о томе на овај начин:

Будући да можда имате само сат времена, морате издвојити онолико учења колико можете. Сав рад је контекстуалан. Ваш задатак да максимизирате РОИ је да откријете, истражите и обновите контекст у којем се посао ради у инциденту, како раде и како људи мисле изнад линије.

Процјене су компромисне, а оне су контекстуалне.

На крају, сви инциденти могу бити и гори. Површан поглед је питати: „Шта је пошло по злу? Како се пробио? Шта да поправимо? ”Ово су врло разумна питања. Ако бисмо узели дубљи ниво и могли бисмо се запитати: "Које су ствари проистекле у томе да нису ни толико лоше колико би могле бити?", Јер на те ствари не обраћамо пажњу и не идентификујемо их те ствари, можда бисмо престали да их подржавамо.

Можда је разлог зашто није погоршало то што се неко зове Лиса, а Лиса зна њене ствари. Нешто од истраживања је да стручњаци могу видети шта тамо нема. Ако не подржавате Лиса, а не препознајете ни да је разлог зашто се није погоршало, јер је Лиса била тамо. Заборавите на акционе ставке како бисте на тренутак поправили нешто. Замислите свијет у којем Лиса одлази на нови посао.

Корисно на стратешком нивоу је боље питање. „Како можемо подржати, охрабрити, заговарати и финансирати континуирани процес разумевања у нашим системима? И заиста узмите „изнад линије“ на одржив начин?

Куда идемо одавде? Имам неке изазове за вас:

  1. Кружите извештај Стелла у својој компанији и започните дијалог. Чак и ако сте превише заузети или нисте у стању да сами то прочитате, дајте то људима који то чине. Питајте их шта одјекује. Питајте их шта нема смисла. Питајте их, започните дијалог.
  2. Погледајте дубоко како обрађујете прегледе после догађаја. Најважније је да потражите људе који су најпознатији о нередовитим детаљима како се посао обавља и питајте их: „Какву вредност мислите да наша тренутна прегледи након инцидента заиста имају?“ И слушајте.
  3. Преузејте одговорност да учите више и брже од инцидената од ваших конкурената. Или градите организацију која учи или губите од оне која је.
  4. Људске перформансе морамо схватити озбиљно. Ова дискусија се дешава. Дешава се у нуклеарној енергији. То се догађа у медицини Дешава се у ваздухопловству, контроли ваздушног саобраћаја, у гашењу пожара.

Све већи значај наших система, све већи потенцијал за економску, политичку и људску штету ако не раде правилно, и ширење зависности и повезана неизвјесност, чине ме врло забринутим. Ако погледате свој сопствени систем и његове проблеме, мислим да ћете се сложити са тим да морамо учинити много више од признања овог проблема. Морамо га прихватити. У чему можете да ми помогнете, ширите ове информације, ове идеје и моју презентацију са ДевОпс Ентерприсе Суммит Сан Францисцо 2017.

Желим да чујем од вас. Шта је одјекнуло са вама у вези с тим? Ста није? Са којим изазовима се суочавате у свом органу током ове линије? Дођи ми реци. На Твиттеру сам.

Првобитно објављено на итреволутион.цом 30. априла 2018.