Suure keele mudel (LLM) suudab kirjutada veenvaid artikleid, mis põhinevad otsekohesel sõnastusel, sooritada kutseoskuste eksamid ning kirjutada patsiendisõbralikku ja empaatilist teavet. Lisaks LLM-is tuntud väljamõeldise, hapruse ja ebatäpsete faktide riskidele on aga järk-järgult fookusesse sattumas ka muud lahendamata probleemid, näiteks tehisintellekti mudelid, mis sisaldavad oma loomisel ja kasutamisel potentsiaalselt diskrimineerivaid „inimlikke väärtusi“, ning isegi kui LLM enam sisu ei fabritseeri ja selgelt kahjulikke väljundtulemusi kõrvaldab, võivad „LLM-i väärtused“ siiski inimlikest väärtustest erineda.
Lugematud näited illustreerivad, kuidas tehisintellekti mudelite treenimiseks kasutatavad andmed kodeerivad individuaalseid ja sotsiaalseid väärtusi, mis võivad mudelis kinnistuda. Need näited hõlmavad mitmesuguseid rakendusi, sealhulgas rindkere röntgenpiltide automaatset tõlgendamist, nahahaiguste klassifitseerimist ja algoritmilist otsuste langetamist meditsiiniliste ressursside jaotamise kohta. Nagu meie ajakirja hiljutises artiklis öeldud, võivad kallutatud treeningandmed võimendada ja paljastada ühiskonnas esinevaid väärtusi ja eelarvamusi. Vastupidi, uuringud on näidanud ka seda, et tehisintellekti saab kasutada eelarvamuste vähendamiseks. Näiteks rakendasid teadlased süvaõppe mudeleid põlve röntgenpiltidele ja avastasid tegureid, mida põlveliigese standardsed raskusastme näitajad (radioloogide poolt hinnatud) ei märganud, vähendades seeläbi seletamatuid valuerinevusi mustanahaliste ja valgete patsientide vahel.
Kuigi üha rohkem inimesi mõistab tehisintellekti mudelite kallutatust, eriti treeningandmete osas, ei pöörata tehisintellekti mudelite väljatöötamisel ja juurutamisel piisavalt tähelepanu paljudele teistele inimväärtuste sisenemispunktidele. Meditsiiniline tehisintellekt on hiljuti saavutanud muljetavaldavaid tulemusi, kuid suures osas pole see otseselt arvestanud inimväärtustega ja nende koostoimega riskihindamise ja tõenäosusliku arutluskäiguga ega ole seda ka modelleeritud.
Nende abstraktsete mõistete konkretiseerimiseks kujutage ette, et olete endokrinoloog, kes peab määrama rekombinantse inimese kasvuhormooni 8-aastasele poisile, kes on alla oma vanuse 3. protsentiili. Poisi stimuleeritud inimese kasvuhormooni tase on alla 2 ng/ml (kontrollväärtus >10 ng/ml, kontrollväärtus paljudes riikides väljaspool Ameerika Ühendriike on >7 ng/ml) ja tema inimese kasvuhormooni kodeerivas geenis on tuvastatud haruldased inaktiveerimismutatsioonid. Usume, et inimese kasvuhormoonravi rakendamine on selles kliinilises keskkonnas ilmne ja vaieldamatu.
Inimese kasvuhormoonravi rakendamine järgmistes stsenaariumides võib tekitada vastuolusid: 14-aastase poisi pikkus on alati olnud tema eakaaslaste 10. protsentiilis ja inimese kasvuhormooni tipptase pärast stimulatsiooni on 8 ng/ml. Puuduvad teadaolevad funktsionaalsed mutatsioonid, mis võivad mõjutada pikkust, ega muud teadaolevad lühikese kasvu põhjused ning tema luude vanus on 15 aastat (st arengupeetust pole). Vaid osa poleemikast tuleneb ekspertide poolt määratud läviväärtuste erinevustest, mis põhinevad kümnetel uuringutel inimese kasvuhormooni taseme kohta, mida kasutatakse isoleeritud kasvuhormooni puudulikkuse diagnoosimiseks. Vähemalt sama palju poleemikat tuleneb inimese kasvuhormoonravi kasutamise riski ja kasu suhtest patsientide, patsientide vanemate, tervishoiutöötajate, ravimifirmade ja maksjate vaatenurgast. Laste endokrinoloogid võivad kaaluda kasvuhormooni igapäevaste süstide haruldasi kõrvaltoimeid kahe aasta jooksul täiskasvanute keha suuruse kasvu puudumise või minimaalse kasvu tõenäosusega võrreldes praegusega. Poisid võivad uskuda, et isegi kui nende pikkus võib suureneda vaid 2 cm võrra, on kasvuhormooni süstimine seda väärt, kuid maksjal ja ravimifirmal võivad olla erinevad seisukohad.
Näiteks võtame kreatiniinipõhise eGFR-i, mis on laialdaselt kasutatav neerufunktsiooni näitaja kroonilise neeruhaiguse diagnoosimiseks ja staadiumi määramiseks, neerusiirdamise või -annetuse tingimuste seadmiseks ning paljude retseptiravimite vähendamise kriteeriumide ja vastunäidustuste määramiseks. EGFR on lihtne regressioonivõrrand, mida kasutatakse mõõdetud glomerulaarfiltratsioonikiiruse (mGFR) hindamiseks, mis on küll võrdlusstandard, kuid hindamismeetod on suhteliselt kohmakas. Seda regressioonivõrrandit ei saa pidada tehisintellekti mudeliks, kuid see illustreerib paljusid inimväärtuste ja tõenäosusliku arutluskäigu põhimõtteid.
Esimene sisenemispunkt inimväärtuste jaoks eGFR-i sisestamisel on andmete valimine võrrandite sobitamiseks. eGFR-i valemi kujundamiseks kasutatud algne järjekord koosneb enamasti mustanahalistest ja valgetest osalejatest ning selle rakendatavus paljudele teistele etnilistele rühmadele pole selge. Järgnevad inimväärtuste sisenemispunktid sellesse valemisse hõlmavad järgmist: mGFR-i täpsuse valimine neerufunktsiooni hindamise peamiseks eesmärgiks, milline on vastuvõetav täpsuse tase, kuidas täpsust mõõta ja eGFR-i kasutamine kliiniliste otsuste tegemise lävendina (näiteks neerusiirdamise tingimuste kindlaksmääramine või ravimite väljakirjutamine). Lõpuks, sisendmudeli sisu valimisel sisestatakse sellesse valemisse ka inimväärtused.
Näiteks enne 2021. aastat soovitasid juhised eGFR-i valemis kreatiniini taseme kohandamist patsiendi vanuse, soo ja rassi alusel (liigitatud ainult mustanahalisteks või mitte-mustanahalisteks isikuteks). Rassil põhineva kohandamise eesmärk on parandada mGFR-i valemi täpsust, kuid 2020. aastal hakkasid suuremad haiglad kahtluse alla seadma rassipõhise eGFR-i kasutamist, viidates sellistele põhjustele nagu patsiendi siirdamise saamise edasilükkamine ja rassi konkretiseerimine bioloogilise kontseptsioonina. Uuringud on näidanud, et eGFR-mudelite kujundamisel rassi alusel võib olla sügav ja erinev mõju täpsusele ja kliinilistele tulemustele; seetõttu peegeldab valikuline keskendumine täpsusele või osale tulemustest keskendumine väärtushinnanguid ja võib varjata läbipaistvat otsuste tegemist. Lõpuks pakkus riiklik töörühm välja uue valemi, mis kohandati rassi arvestamata, et tasakaalustada tulemuslikkuse ja õigluse küsimusi. See näide illustreerib, et isegi lihtsal kliinilisel valemil on palju sisenemispunkte inimlike väärtuste juurde.
Võrreldes kliiniliste valemitega, millel on vaid väike arv ennustavaid indikaatoreid, võib LLM koosneda miljarditest kuni sadade miljardite parameetrite (mudeli kaalude) või enama võrra, mistõttu on seda raske mõista. Põhjus, miks me ütleme „raskesti mõistetav”, on see, et enamikus LLM-ides ei ole küsimuste abil vastuste saamise täpset viisi võimalik kaardistada. GPT-4 parameetrite arvu pole veel avalikustatud; selle eelkäijal GPT-3-l oli 175 miljardit parameetrit. Rohkem parameetreid ei tähenda tingimata suuremaid võimeid, kuna väiksemad mudelid, mis sisaldavad rohkem arvutustsükleid (näiteks LLaMA [Large Language Model Meta AI] mudeliseeria) või mudelid, mis on inimese tagasiside põhjal peenhäälestatud, toimivad paremini kui suuremad mudelid. Näiteks inimestest hindajate sõnul edestab InstrumentGPT mudel (mudel, millel on 1,3 miljardit parameetrit) GPT-3 mudeli väljundtulemuste optimeerimisel.
GPT-4 täpseid treeningandmeid pole veel avalikustatud, kuid varasemate põlvkondade mudelite, sealhulgas GPT-3, InstrumentGPT ja paljude teiste avatud lähtekoodiga LLM-ide üksikasjad on avalikustatud. Tänapäeval on paljudel tehisintellekti mudelitel kaasas mudelikaardid; GPT-4 hindamis- ja turvaandmed on avaldatud sarnasel süsteemikaardil, mille on pakkunud mudeli loomise ettevõte OpenAI. LLM-i loomise saab laias laastus jagada kahte etappi: esialgne eelkoolituse etapp ja peenhäälestamise etapp, mille eesmärk on mudeli väljundtulemuste optimeerimine. Eelkoolituse etapis antakse mudelile suur korpus, mis sisaldab algset internetiteksti, et treenida seda järgmise sõna ennustamiseks. See pealtnäha lihtne "automaatse täitmise" protsess loob võimsa alusmudeli, kuid see võib viia ka kahjuliku käitumiseni. Eelkoolituse etappi sisenevad inimlikud väärtused, sealhulgas GPT-4 eelkoolituse andmete valimine ja sobimatu sisu, näiteks pornograafilise sisu, eemaldamise otsustamine eelkoolituse andmetest. Vaatamata neile pingutustele ei pruugi põhimudel ikkagi olla kasulik ega suuteline kahjulikke väljundtulemusi sisaldama. Järgmises peenhäälestamise etapis ilmneb palju kasulikke ja kahjutuid käitumisviise.
Peenhäälestamise etapis muudetakse keelemudelite käitumist sageli sügavalt juhendatud peenhäälestamise ja inimtagasiside põhjal toimuva tugevdusõppe abil. Juhendatud peenhäälestamise etapis kirjutavad palgatud alltöövõtjate töötajad vastusenäited kiirsõnadele ja treenivad mudelit otse. Inimtagasiside põhjal toimuva tugevdusõppe etapis sorteerivad inimhindajad mudeli väljundtulemused sisendsisu näideteks. Seejärel rakendavad nad ülaltoodud võrdlustulemusi „tasumudeli“ õppimiseks ja mudeli edasiseks täiustamiseks tugevdusõppe abil. Hämmastav madal inimkaaslus suudab neid suuri mudeleid peenhäälestada. Näiteks InstrumentGPT mudel kasutas umbes 40 alltöövõtjast koosnevat meeskonda, kes värvati rahvahulga veebisaitidelt, ja läbis sõeltesti, mille eesmärk oli valida annotaatorite rühm, kes on tundlikud erinevate rahvastikurühmade eelistuste suhtes.
Nagu need kaks äärmuslikku näidet, nimelt lihtne kliiniline valem [eGFR] ja võimas LLM [GPT-4], näitavad, mängivad inimese otsustusprotsess ja inimlikud väärtused mudeli tulemuste kujundamisel asendamatut rolli. Kas need tehisintellekti mudelid suudavad tabada patsientide ja arstide mitmekesiseid väärtusi? Kuidas suunata tehisintellekti rakendamist meditsiinis avalikult? Nagu allpool mainitud, võib meditsiinilise otsustusanalüüsi uuesti läbivaatamine pakkuda neile probleemidele põhimõttelise lahenduse.
Meditsiiniline otsustusanalüüs ei ole paljudele arstidele tuttav, kuid see suudab eristada tõenäosuslikku arutluskäiku (otsustusprotsessiga seotud ebakindlate tulemuste puhul, näiteks kas manustada inimese kasvuhormooni joonisel 1 kujutatud vastuolulises kliinilises stsenaariumis) ja kaalutlustegureid (nende tulemustega seotud subjektiivsete väärtuste puhul, mille väärtust kvantifitseeritakse kui "kasulikkust", näiteks mehe 2 cm pikkuse kasvu väärtus), pakkudes süstemaatilisi lahendusi keerukatele meditsiinilistele otsustele. Otsustusanalüüsis peavad arstid kõigepealt kindlaks määrama kõik iga tulemusega seotud võimalikud otsused ja tõenäosused ning seejärel kaasama iga tulemusega seotud patsiendi (või teise osapoole) kasulikkuse, et valida kõige sobivam variant. Seetõttu sõltub otsustusanalüüsi kehtivus sellest, kas tulemuse keskkond on kõikehõlmav, samuti sellest, kas kasulikkuse mõõtmine ja tõenäosuse hindamine on täpsed. Ideaalis aitab see lähenemisviis tagada, et otsused on tõenduspõhised ja kooskõlas patsiendi eelistustega, vähendades seeläbi lõhet objektiivsete andmete ja isiklike väärtuste vahel. See meetod võeti meditsiinivaldkonnas kasutusele mitu aastakümmet tagasi ja seda rakendati individuaalsete patsientide otsustusprotsessides ja rahvastiku tervise hindamisel, näiteks kolorektaalvähi sõeluuringu soovituste andmisel üldpopulatsioonile.
Meditsiinilises otsustusanalüüsis on kasulikkuse määramiseks välja töötatud mitmesuguseid meetodeid. Enamik traditsioonilisi meetodeid tuletab väärtust otse üksikutelt patsientidelt. Lihtsaim meetod on kasutada hindamisskaala, kus patsiendid hindavad oma eelistust teatud tulemuse suhtes digitaalsel skaalal (näiteks lineaarsel skaalal vahemikus 1 kuni 10), kusjuures kõige äärmuslikumad tervisenäitajad (näiteks täielik tervis ja surm) asuvad mõlemas otsas. Ajavahetuse meetod on veel üks levinud meetod. Selle meetodi puhul peavad patsiendid tegema otsuse, kui palju tervet aega nad on nõus kulutama halva tervise perioodi eest. Standardne hasartmängumeetod on veel üks levinud meetod kasulikkuse määramiseks. Selle meetodi puhul küsitakse patsientidelt, millist kahest variandist nad eelistavad: kas elada teatud arv aastaid normaalse tervise juures kindla tõenäosusega (p) (t) või kanda surmariski 1-p tõenäosusega; või veenduda, et nad elavad t aastat risttervislikes tingimustes. Küsige patsientidelt mitu korda erinevate p-väärtustega, kuni nad ei näita eelistust ühegi variandi suhtes, et kasulikkust saaks arvutada patsientide vastuste põhjal.
Lisaks meetoditele, mida kasutatakse patsientide individuaalsete eelistuste väljaselgitamiseks, on välja töötatud ka meetodeid, mis on kasulikud patsientide populatsioonile. Eriti fookusgrupi arutelud (patsientide kokkutoomine konkreetsete kogemuste arutamiseks) aitavad mõista nende seisukohti. Grupi kasulikkuse tõhusaks koondamiseks on välja pakutud mitmesuguseid struktureeritud grupi arutelu tehnikaid.
Praktikas on kasulikkuse otsene rakendamine kliinilisse diagnoosimis- ja raviprotsessi väga aeganõudev. Lahendusena jagatakse uuringuküsimustikud tavaliselt juhuslikult valitud populatsioonidele, et saada kasulikkuse skoori populatsiooni tasandil. Mõned näited hõlmavad EuroQol 5-mõõtmelist küsimustikku, 6-mõõtmelist kasulikkuse kaalu lühivormi, tervise kasulikkuse indeksit ja vähispetsiifilist Euroopa Vähiuuringute ja -ravi Organisatsiooni elukvaliteedi küsimustiku Core 30 tööriista.
Postituse aeg: 01.06.2024




