Vanhan sanonnan mukaan ennustaminen on vaikeaa, varsinkin tulevaisuuden. Mahdottomaksi sitä ei kuitenkaan väitetä ja tekniikan kehittyessä enää ei tulevaisuudesta kiinnostuneiden ainoana toivona ole korteista katsominen tai TV:stä tutut puhelinennustukset.

Ennustaminen on Wikipedian mukaan tulevaisuutta koskevan arvion kehittämistä ja sen esittämistä. Tässä artikkelissa esittelen dataan perustuvaa ennustamista käyttäen hyväkseni Minitab-ohjelmiston ennustavaa analytiikkaa (Predictive Analytics).

Minitabissa on jo pitkään ollut mahdollista käyttää CART® (Classification Trees and Regression Trees) menetelmää ennustavaan analyysiin. CART® on Stanfordin ja Berkeleyn yliopistotutkijoiden alun perin vuonna 1984 kehittämään teoriaan perustuva menetelmä (algoritmi), joka etsii eri tapoja datan osittamiseksi ja pilkkomiseksi ennustavien tekijöiden perusteella. Tuloksena saadaan visuaalinen puu, jonka avulla tuloksen tulkinta on kohtuullisen yksinkertaista.

Käytän hyväkseni Yhdysvalloissa vuodesta 1984 lähtien toteutetun käyttäytymiseen liittyvien riskitekijöiden kartoituksen (BRFSS) dataa vuodelta 2015 ja siitä eroteltua diabetekseen liittyvää osuutta.

Kyseinen data on kerätty haastattelututkimuksen avulla yli 250 000 vastaajalta ja tässä osuudessa olemme kiinnostuneita tekijöistä, joilla on vaikutus ko. taudin esiintymiseen ja onko taudin ennustaminen näiden tekijöiden avulla mahdollista.

Vastaajilta kysyttiin onko heillä todettu diabetes (0 = ei diabetesta, 1 = esidiabetes (verensokeri koholla), 2 = diabetes), tämän lisäksi heiltä on kysytty erinäisiä terveyteen (todettu korkea verenpaine, painoindeksi jne.), käyttäytymiseen liittyviä (tupakointi, ruokailutottumukset jne.) ja muita (ikä, sukupuoli jne.) lisätietoja. Tätä aineistoa lähdemme nyt analysoimaan Minitabin avulla.

Olemme siis kiinnostuneita onko henkilöllä diabetes vai ei, eli vaste on niin sanotusti kategorinen (0, 1 tai 2), tässä tilanteessa oikea työkalu on CART® Classification. Myös suurin osa haastattelussa selvitetyistä taustatekijöistä on kategorista dataa. En tässä käy kaikkia tekijöitä yksityiskohtaisesti läpi, tarkemmat tiedot löytyvät lähteissä mainitun linkin takaa.

CART® Classification dialogi-ikkuna
Kuva 1. CART® Classification dialogi-ikkuna

Minitab jakaa datan automaattisesti training ja test -osioihin (70/30), training-osuutta käytetään algoritmin opettamiseen ja test osuuden avulla testataan algoritmin toimintaa. Vasteen tyyppi on tässä tapauksessa multinomiaalinen (monitasoinen), koska vasteella on kolme mahdollista arvoa. Noin 84 % vastaajista ei ollut diabetesta, hieman alle 2 % oli esidiabetes ja noin 14 % oli todettu diabetes. Asia muuttuu mielenkiintoisemmaksi, kun aletaan tutkia tuloksia eri tekijöiden suhteen.

Yhteenveto vastedatasta
Kuva 2. Yhteenveto vastedatasta

Confusion Matrix kertoo meille, kuinka hyvin algoritmin tuottama puu toimii, eli kuinka hyvin se ”osaa ennustaa”.  Olimme ensisijaisesti kiinnostuneita henkilöistä, joilla on todettu diabetes, eli vasteen arvosta 2. Matriisia tutkimalla nähdään esimerkiksi testidatan osalta seuraavaa: vastedatassa oli 10527 arvoa 2 (todettu diabetes), algoritmin tuloksena tuloksia 2 saatiin 6900 kpl, eli 65,5 % onnistuminen.

Confusion Matrix
Kuva 3. Confusion Matrix

Algoritmin luoma puurakenne antaa siis kohtuullisen hyviä tuloksia (osumatarkkuus diabeteksen osalta 65 %). Millä tekijöillä on suurin vaikutus? Tämä saadaan kätevimmin selville Relative Variable Importance kuvaajasta. Tärkeimmiksi tekijöiksi nousevat korkea verenpaine (HighBp), ikä (Age), yleinen terveydentila (GenHlth) ja painoindeksi (BMI).

Relative Variable Importance
Kuva 4. Relative Variable Importance
  • Korkea verenpaine – vastaajalla on terveydenhuollon ammattilaisen diagnosoima korkea verenpaine
  • Ikä – ikä jaettuna 13 luokkaan, 1 = 18-24, 8 = 55-59, 9 = 60-64
  • Yleinen terveydentila – vastaajan oma arvio omasta terveydestään asteikolla erinomainen (1)-heikko (5)
  • Painoindeksi –       
    • 25–30: ylipaino eli lievä lihavuus
    • 30–35: merkittävä lihavuus
    • 35–40: vaikea lihavuus
    • Yli 40: sairaalloinen lihavuus.

Varsinaisen puurakenteen tutkiminen näin artikkelissa menee haastavaksi, joten suosittelen lukijoita lataamaan datan itselleen ja testaamaan. 

CART® luokittelupuu
Kuva 5. CART® luokittelupuu

Mielenkiintoisinta ennustavassa analytiikassa on juuri ennustaminen. Otetaanpa vertailuun kaksi samanikäistä henkilöä (55 vuotta, eli ikäryhmä 8), molemmilla on todettu korkea verenpaine, he ovat omasta mielestään hyvässä kunnossa (yleinen terveydentila 2), he ovat saman pituisia (185 cm), mutta toinen on ”normaalipainoinen” (80 kg → BMI 23,4) ja toinen ”vaikeasti lihava” (120 kg → BMI 35,1).

Näillä lähtötiedoilla Minitab laskee meille todennäköisyydet eri ryhmiin kuulumisille (ja meitä kiinnosti ryhmä 2 eli todettu diabetes). Ennuste kertoo mihin puun haaraan annettu tekijäyhdistelmä sijoittuu, ja mitkä ovat eri tulosten todennäköisyydet.

Normaalipainoisen henkilön ennuste
Kuva 6. Normaalipainoisen henkilön ennuste
Vaikeasti lihavan henkilön ennuste
Kuva 7. Vaikeasti lihavan henkilön ennuste

Normaalipainoisen henkilön todennäköisyys joutua luokkaan 2 (eli todettuun diabetekseen) on siis noin 5 %, kun taas vaikeasti lihavalla todennäköisyys on yli 21 %, kun muut tekijät ovat samoja. Tästä vedetty johtopäätös varmaan tulee harvalle yllätyksenä, jos haluat pienentää diabeteksen todennäköisyyttä, laihduta.

Ja kuten ennustamisessa muutenkin, täytyy pitää mielessä mallin epätarkkuus. Kaikki mallit ovat väärässä, mutta jotkut ovat hyödyllisiä. Tämä malli on hyödyllinen diabeteksen ennustamisessa noin 65 % osumatarkkuudella.

Minitab tarjoaa CART® menetelmän lisäksi muitakin koneoppimiseen perustuvia ennustavan analytiikan menetelmiä (mm. TreeNet® ja Random Forests®), joiden taustalla toimivat algoritmit ovat kehittyneempiä kuin CART® menetelmän, mutta ns. peruskäyttäjälle CART® varmasti riittää vallan hyvin.

Lähteet:

  1. https://fi.wikipedia.org/wiki/Ennustaminen
  2. Predictive Analytics, Eric Siegel, Wiley 2013
  3. https://www.cdc.gov/brfss/annual_data/annual_2015.html
  4. https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset
  5. https://www.terveyskirjasto.fi/dlk01001

_____________________________________________________________________________

Lataa Minitab-harjoitustiedosto (DiabetesHealth dataset)

Lomakkeen lähetyksen jälkeen voit ladata harjoitustiedoston.

"*" näyttää pakolliset kentät

Täytä sähköpostiosoitteesi ja pääset lataamaan harjoitustiedoston itsellesi. Huomaathan, että latausnappi tulee tämän artikkelin loppuun täytettyäsi sähköpostin, eli skrollaa tarvittaessa sivu takaisin alas ja paina lataa nappulaa. Lataus käynnistyy automaattisesti.

Kommentoi artikkelia

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Tämä lomake on suojattu Google reCAPTCHA:lla. Lue tietosuojaseloste ja käyttöehdot.

Tilaa uutiskirje

Liity postituslistalle ja saat uusimmat artikkelit suoraan sähköpostiisi.