Vanhan sanonnan mukaan ennustaminen on vaikeaa, varsinkin tulevaisuuden. Mahdottomaksi sitä ei kuitenkaan väitetä ja tekniikan kehittyessä enää ei tulevaisuudesta kiinnostuneiden ainoana toivona ole korteista katsominen tai TV:stä tutut puhelinennustukset.
Ennustaminen on Wikipedian mukaan tulevaisuutta koskevan arvion kehittämistä ja sen esittämistä. Tässä artikkelissa esittelen dataan perustuvaa ennustamista käyttäen hyväkseni Minitab-ohjelmiston ennustavaa analytiikkaa (Predictive Analytics).
Minitabissa on jo pitkään ollut mahdollista käyttää CART® (Classification Trees and Regression Trees) menetelmää ennustavaan analyysiin. CART® on Stanfordin ja Berkeleyn yliopistotutkijoiden alun perin vuonna 1984 kehittämään teoriaan perustuva menetelmä (algoritmi), joka etsii eri tapoja datan osittamiseksi ja pilkkomiseksi ennustavien tekijöiden perusteella. Tuloksena saadaan visuaalinen puu, jonka avulla tuloksen tulkinta on kohtuullisen yksinkertaista.
Käytän hyväkseni Yhdysvalloissa vuodesta 1984 lähtien toteutetun käyttäytymiseen liittyvien riskitekijöiden kartoituksen (BRFSS) dataa vuodelta 2015 ja siitä eroteltua diabetekseen liittyvää osuutta.
Kyseinen data on kerätty haastattelututkimuksen avulla yli 250 000 vastaajalta ja tässä osuudessa olemme kiinnostuneita tekijöistä, joilla on vaikutus ko. taudin esiintymiseen ja onko taudin ennustaminen näiden tekijöiden avulla mahdollista.
Vastaajilta kysyttiin onko heillä todettu diabetes (0 = ei diabetesta, 1 = esidiabetes (verensokeri koholla), 2 = diabetes), tämän lisäksi heiltä on kysytty erinäisiä terveyteen (todettu korkea verenpaine, painoindeksi jne.), käyttäytymiseen liittyviä (tupakointi, ruokailutottumukset jne.) ja muita (ikä, sukupuoli jne.) lisätietoja. Tätä aineistoa lähdemme nyt analysoimaan Minitabin avulla.
Olemme siis kiinnostuneita onko henkilöllä diabetes vai ei, eli vaste on niin sanotusti kategorinen (0, 1 tai 2), tässä tilanteessa oikea työkalu on CART® Classification. Myös suurin osa haastattelussa selvitetyistä taustatekijöistä on kategorista dataa. En tässä käy kaikkia tekijöitä yksityiskohtaisesti läpi, tarkemmat tiedot löytyvät lähteissä mainitun linkin takaa.
Minitab jakaa datan automaattisesti training ja test -osioihin (70/30), training-osuutta käytetään algoritmin opettamiseen ja test osuuden avulla testataan algoritmin toimintaa. Vasteen tyyppi on tässä tapauksessa multinomiaalinen (monitasoinen), koska vasteella on kolme mahdollista arvoa. Noin 84 % vastaajista ei ollut diabetesta, hieman alle 2 % oli esidiabetes ja noin 14 % oli todettu diabetes. Asia muuttuu mielenkiintoisemmaksi, kun aletaan tutkia tuloksia eri tekijöiden suhteen.
Confusion Matrix kertoo meille, kuinka hyvin algoritmin tuottama puu toimii, eli kuinka hyvin se ”osaa ennustaa”. Olimme ensisijaisesti kiinnostuneita henkilöistä, joilla on todettu diabetes, eli vasteen arvosta 2. Matriisia tutkimalla nähdään esimerkiksi testidatan osalta seuraavaa: vastedatassa oli 10527 arvoa 2 (todettu diabetes), algoritmin tuloksena tuloksia 2 saatiin 6900 kpl, eli 65,5 % onnistuminen.
Algoritmin luoma puurakenne antaa siis kohtuullisen hyviä tuloksia (osumatarkkuus diabeteksen osalta 65 %). Millä tekijöillä on suurin vaikutus? Tämä saadaan kätevimmin selville Relative Variable Importance kuvaajasta. Tärkeimmiksi tekijöiksi nousevat korkea verenpaine (HighBp), ikä (Age), yleinen terveydentila (GenHlth) ja painoindeksi (BMI).
- Korkea verenpaine – vastaajalla on terveydenhuollon ammattilaisen diagnosoima korkea verenpaine
- Ikä – ikä jaettuna 13 luokkaan, 1 = 18-24, 8 = 55-59, 9 = 60-64
- Yleinen terveydentila – vastaajan oma arvio omasta terveydestään asteikolla erinomainen (1)-heikko (5)
- Painoindeksi –
- 25–30: ylipaino eli lievä lihavuus
- 30–35: merkittävä lihavuus
- 35–40: vaikea lihavuus
- Yli 40: sairaalloinen lihavuus.
Varsinaisen puurakenteen tutkiminen näin artikkelissa menee haastavaksi, joten suosittelen lukijoita lataamaan datan itselleen ja testaamaan.
Mielenkiintoisinta ennustavassa analytiikassa on juuri ennustaminen. Otetaanpa vertailuun kaksi samanikäistä henkilöä (55 vuotta, eli ikäryhmä 8), molemmilla on todettu korkea verenpaine, he ovat omasta mielestään hyvässä kunnossa (yleinen terveydentila 2), he ovat saman pituisia (185 cm), mutta toinen on ”normaalipainoinen” (80 kg → BMI 23,4) ja toinen ”vaikeasti lihava” (120 kg → BMI 35,1).
Näillä lähtötiedoilla Minitab laskee meille todennäköisyydet eri ryhmiin kuulumisille (ja meitä kiinnosti ryhmä 2 eli todettu diabetes). Ennuste kertoo mihin puun haaraan annettu tekijäyhdistelmä sijoittuu, ja mitkä ovat eri tulosten todennäköisyydet.
Normaalipainoisen henkilön todennäköisyys joutua luokkaan 2 (eli todettuun diabetekseen) on siis noin 5 %, kun taas vaikeasti lihavalla todennäköisyys on yli 21 %, kun muut tekijät ovat samoja. Tästä vedetty johtopäätös varmaan tulee harvalle yllätyksenä, jos haluat pienentää diabeteksen todennäköisyyttä, laihduta.
Ja kuten ennustamisessa muutenkin, täytyy pitää mielessä mallin epätarkkuus. Kaikki mallit ovat väärässä, mutta jotkut ovat hyödyllisiä. Tämä malli on hyödyllinen diabeteksen ennustamisessa noin 65 % osumatarkkuudella.
Minitab tarjoaa CART® menetelmän lisäksi muitakin koneoppimiseen perustuvia ennustavan analytiikan menetelmiä (mm. TreeNet® ja Random Forests®), joiden taustalla toimivat algoritmit ovat kehittyneempiä kuin CART® menetelmän, mutta ns. peruskäyttäjälle CART® varmasti riittää vallan hyvin.
Lähteet:
- https://fi.wikipedia.org/wiki/Ennustaminen
- Predictive Analytics, Eric Siegel, Wiley 2013
- https://www.cdc.gov/brfss/annual_data/annual_2015.html
- https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset
- https://www.terveyskirjasto.fi/dlk01001
_____________________________________________________________________________
Lataa Minitab-harjoitustiedosto (DiabetesHealth dataset)
Lomakkeen lähetyksen jälkeen voit ladata harjoitustiedoston.
"*" näyttää pakolliset kentät
Tilaa uutiskirje
Liity postituslistalle ja saat uusimmat artikkelit suoraan sähköpostiisi.
Tämä lomake on suojattu Google reCAPTCHA:lla. Lue tietosuojaseloste ja käyttöehdot.
Liittymällä postituslistalle hyväksyt Quality Knowhow Karjalainen Oy:n tietosuojaselosteen ja Quality Knowhow Karjalainen Oy voi lähettää sinulle ajankohtaisia artikkeleita, videoita sekä tietoa ja tarjouksia kursseista, kirjoista sekä ohjelmistoista.
Tämä lomake on suojattu Google reCAPTCHA:lla. Lue tietosuojaseloste ja käyttöehdot.