Կյանքի գիտություններում և կենսաբժշկության մեջ AI- ի կողմնակալությունը նվազեցնելու նոր մոդել
Կենսատեխնոլոգիայի, բժշկության, դեղագործության, առողջապահության և կենսագիտության ոլորտներում, ինչպիսիք են արհեստական ինտելեկտի (ՄՏ) մեքենայական ուսուցումն իրականացնելիս, մարդու առողջության և անվտանգության ապահովման անհրաժեշտությունը գերակա խնդիր է: MIT- ի և Հարվարդի Լայն ինստիտուտի հետազոտողները և նրանց համագործակիցները ստեղծեցին կյանքի գիտությունների ոլորտում ԱՀ մեքենայական ուսուցման աուդիտի և դեբիայի ուսումնասիրման շրջանակ և հրապարակեցին իրենց վերջին ուսումնասիրությունը Կապի կենսաբանություն .
«Մեքենայական ուսուցման (ԲԼ) մոդելների պատրաստման համար օգտագործվող տվյալների կողմնակալությունները կարող են ուռճացնել դրանց կանխատեսման կատարումը և խառնել մեր ընկալումը, թե ինչպես և ինչ են սովորում», - գրել են MIT- ի և Հարվարդի Լայն ինստիտուտի հետազոտողներ Ֆաթմա-Էլզահրաա Էյդը, Հայթհամ Էլմարաքբին, Յուջիա Ալինա Չանը, Նադին Ֆորնելոսը, Էլիզեր Վան Ալլենը և Կասպեր Լաժը ՝ Մահմուդ ԷլՀեֆնավիի հետ միասին, Եգիպտոսի Գիզա քաղաքի ազգային հետազոտական կենտրոնում, և Լենվուդ Հիթը ՝ Վիրջինիայի պոլիտեխնիկական ինստիտուտում և Պետական համալսարանում: «Չնայած կողմնակալությունները կենսաբանական տվյալների մեջ տարածված են, բայց այդ կանխակալությունները բացահայտելու և վերացնելու ՓԼ մոդելների համակարգված աուդիտը սովորական պրակտիկա չէ կյանքի գիտություններում ՄԼ կիրառելիս»:
Հետազոտական թիմը նախ մշակեց սպիտակուցների և սպիտակուցների փոխազդեցության (PPI) հետաքննման հիմք, այնուհետև կիրառեց այն թմրամիջոցների թիրախային կենսաակտիվության և MHC- պեպտիդների հետ կապելու համար: Սպիտակուցի և սպիտակուցի փոխազդեցությունների կանխատեսումը կարևոր է օրգանիզմների բջջային գործառույթների համար, և կարևոր է հասկանալ բիոտեխնիկայի և դե նովո թմրանյութերի հայտնաբերում: Բժշկության մեջ թմրամիջոցների թիրախային կենսաակտիվությունը վերաբերում է կենդանի հյուսվածքի կամ օրգանիզմի վրա դեղի ազդեցությանը: Հիստոկոմատիզացիայի հիմնական կոմպլեքսը (MHC) ողնաշարավոր կենդանիների մեջ հայտնաբերված գեների մի խումբ է, որը ծածկագրում է բջիջների մակերևույթներին սպիտակուցներ, որոնք իմունային համակարգին հնարավորություն են տալիս ճանաչել օտարերկրյա նյութերը:
«Ընդհանուր առմամբ, մեր աուդիտորական համակարգի լայն կիրառելիությունը և զարգացած աուդիտորների կիրառելիությունը զուգակցված ներմուծման այլ ծրագրերի հետ նկարագրելու համար, մենք աուդիտի շրջանակը հարմարեցրեցինք կարևոր թերապևտիկ հետաքրքրության երկու լրացուցիչ ծրագրերի. պարտադիր », - գրել են հետազոտողները:
Աուդիտորական մեքենայի ուսուցման շրջանակն ունի չորս մոդուլ. Չափորոշիչ, կողմնակալ հարցաքննություն, կողմնակալության նույնականացում և կողմնակալության վերացում:
Առաջին մոդուլի համար հետազոտողները հաստատեցին ելակետային ցուցանիշները `ըստ տվյալների դասակարգման առանձին տվյալների շտեմարանների: Յոթ դասակարգիչներից հինգը օգտագործում էին աջակցության վեկտորային մեքենաներ (SVM) ՝ տարբեր միջուկներով, մեկը ՝ պատահական անտառ, և մեկը ՝ խորը ուսուցման վրա հիմնված կուտակված ավտո-կոդավորող: Աջակցման վեկտորային մեքենայական դասակարգիչների համար օգտագործվել է MATLAB- ի համադրություն LibSVM գրադարանի հետ: Օգտագործվել են մարդու սպիտակուցների երեք շտեմարաններ: Դասակարգիչները վերապատրաստվել են հատուկ տվյալների բազայի ենթաբազմությունների վրա, ինչպիսիք են սպիտակուցային զույգերը: Հետազոտողները զեկուցել են, որ «բոլոր դասակարգիչների շրջանում հենանիշի լավագույն կատարումը բարձր էր», որը չափվում է կորի տակ գտնվող միջին տարածքի (AUC) միջոցով:
«Կենսաբանական ML կայուն մոդելները պետք է ընդհանրացվեն անկախ տվյալների շտեմարաններին», - գրել են հետազոտողները:
Արհեստական բանականության մեքենայական ուսուցման մեջ ընդհանրացումը վերաբերում է ալգորիթմի `վերապատրաստման ընթացքում սովորածը ճշգրտության բարձր աստիճանի կիրառման ունակությանը` նախկինում չտեսած նոր տվյալների վրա: Այս առումով կայունությունը վերաբերում է մեքենայական ուսուցման ալգորիթմի `տրված վեպի նոր տվյալները լավ կատարելու ունակությանը:
Դրան հասնելու համար թիմը ստեղծեց ընդհանրականության աուդիտոր ՝ որպես երկրորդ մոդուլ: Այս մոդուլը համեմատում է մոդելի նախնական կատարողականի հետ անկախ տվյալների բազայի հետ, որը կոչվում է «Ընդհանուրացման տվյալների բազա», փորձելով կողմնակալության տարածքներ հայտնաբերել:
Հայտնաբերված կողմնակալությունները կողմնակալության վարկածների հետ միասին մուտք են գործում երրորդ մոդուլի, որն ստուգում է նույնականացման կողմնակալությունը: Այս մոդուլը կա՛մ մերժում է, կա՛մ հաստատում է ձևակերպված կողմնակալության վարկածները:
Վերջնական մոդուլը կողմնակալությունը վերացնելու համար է: Այն ստուգում է կողմնակալությունը, որը որոշվել էր նախորդ քայլում ՝ գնահատելով, թե ինչպես են դասակարգիչները ընդհանրացնում հետո ՝ տվյալների տվյալների հավաքածուներն առանձնացնելուց հետո:
«Երբ վերապատրաստման տվյալների ներկայացման մեջ անբավարար ազդանշան կա, ՓԼ մոդելները հիմնականում կարող էին սովորել ուսուցման տվյալների ներկայացուցչական կողմնակալություններից», - պարզել են հետազոտողները: «Սա, կարծես, գերակշռում է ազդելու զուգակցված մուտքային ML ծրագրերի վրա և կարող է ապակողմնորոշիչ լինել, եթե չի լուսաբանվում աուդիտի միջոցով»:
Հետազոտողները խորհուրդ են տալիս մեքենայական սովորող գիտնականներին, ովքեր ԿԻ-ն օգտագործում են կենսաբանական նպատակներով, զարգացնելու համար «համայնքային դիրքորոշում կողմնապահության համար ՄԼ-ի մոդելների համակարգված ստուգման վերաբերյալ» և GitHub- ի պահոցում տրամադրել ծածկագիր, ռեսուրսներ և մեթոդներ: Հայեցակարգի այս ապացույցով հետազոտողները տրամադրել են մեքենայական ուսուցում կատարելու միջոց `կանխատեսելու կենսաբանական հարաբերությունները` նվազեցված կողմնակալությամբ `ավելի մեծ ճշգրտության և ավելի լավ արդյունքների համար:
Հեղինակային իրավունք © 2021 Cami Rosso Բոլոր իրավունքները պաշտպանված են: