Korrelaatioennuste -malli                             

Tämä kirjoitus käsittelee korrelaatioennustemallia ja tarkoitus on avata, mitä tämä tarkoittaa sekä kuinka tämä helpottaa kehitys- ja/tai suunnittelutyötä.

Korrelaatioennustemallin nimi tulee siitä, että prosessista tai mallinnettavasta kohteesta on käytössä historiadataa selittävistä (x) tekijöistä ja selitettävästä vasteesta (Y) ja näistä luodaan korrelaatiot. Modernin analyysitekniikan ja vahvistavan analyysin avulla luodaan ennustemalli vasteelle. 

On tilanteita, joihin ei jostain syystä voida luoda yleisestä teoriasta johdettua deduktiivista mallia tai satunnaistettua koetta ei voida tehdä, joten ei saada ohjaavaa kausaalimallia, on tyydyttävä epäluotettavampaan korrelaatiomalliin.

Tämä kirjoitus on jatkoa edeltävälle kirjoitukselle, jossa kuvattiin kolme malliluokkaa ja kuusivaiheinen prosessi. Sarja kokonaisuudessaan on neljän artikkelin sarja, joissa kussakin käsitellään kutakin malliluokkaa.

  1. Kausaali- eli syy-vaikutus-mallinnus (Black Box), joka perustuu testeihin ja kokeisiin – joissa prosessin tekijöitä muutetaan systemaattisesti niin, että tekijöiden yksittäiset ja yhteiset vaikutukset voidaan mallintaa – Design of Experiments, DOE.  Mallia kutsutaan myös ohjaavaksi malliksi (prescriptive), jolla prosessin lukuiset ulostulot voidaan optimoida keskenään kun näihin vaikuttavat tekijät x:t. Mallin tuloksena saadaan ulostuloille (Y) ja tälle luottamusvälit halutulla virhetodennäköisyydellä. Mallin tai mallien luonti, laskenta ja optimointi tehdään Minitab-ohjelmalla. Tämä malli on Lean Six Sigman päämalli.
  2. Korrelaatio-ennustemallinnus (Grey Box), joka perustuu satunnaisista
    palvelu- ja tuotantoprosessin havainnoista x ja samanaikaisista ulostuloista Y tehtyihin korrelaatiohavaintoihin, ei siis kokeellisesti aiheutettuihin ja tehtyihin muutoksiin, kuten kausaalimallinnuksessa. Näistä havainnoista muodostetaan prosessin korrelaatiomalli eli koneoppimisen malli (Machine learning). Mallilla voidaan simuloida ja optimoida erilaisia muuttujien (x) tilanteita ilman, että muutetaan prosessia.  Mallia kutsutaan ennustavaksi (predictive) malliksi. Mallin tuloksena saadaan ennusteet ulostulolle. Analyysitulos on esimerkiksi, että Y on 80 %:n todennäköisyydellä tämä. Malli voidaan luoda, laskea ja optimoida Minitab-ohjelmalla.
  3. Deduktiivinen mallinnus (White Box), joka perustuu loogiseen päättelyyn lähtien peruselementeistä. Palvelu- ja tuotantoprosessien mallinnus voidaan tehdä kuudella peruskäsitteellä: kysyntä, muunnos, varasto, virtaus, bufferi ja vaihtelu. Näiden avulla niistä johdettuihin yhteyksien avulla, kuten Littlen laki, Kingmanin yhtälö, kysyntä-toimitusaikavarianssiyhtälö, voidaan muodostaa palvelu ja tuotantoprosessin kuvaava deduktiivinen malli.

Artikkelisarjassa esitetään analyyttisen ongelmanratkaisuprosessi, missä yleisellä tasolla kuvataan Y=f(x1…xn) mallin luominen. Kuvataan askeleiden vaiheet ja ideoita, mihin tätä prosessia voi käyttää. 

Aiemmassa artikkelissa oli analyyttisen ongelmanratkaisuprosessin yhteenveto. Tämä artikkeli käsittelee korrelaatiomallin soveltamista analyyttisen ongelmanratkaisumallin vaiheissa 1-6 (kuva alla).

Analyyttisen ongelmanratkaisuprosessin yhteenveto.
Kuva 1. Analyyttisen ongelmanratkaisuprosessin yhteenveto.

Malli ja mallin käyttäminen

Tässä mallilla tarkoitetaan keinoa, kuinka määrällistetään ja hallitaan syy-seuraussuhde. Päätarkoitus on mallin avulla arvioida, mitä tapahtuu nyt ja tulevaisuudessa. Hyvän ja toimivan mallin tunnistaa siitä, että voit etukäteen tietää mitä tapahtuu, ennen kuin asia on tapahtunut. Jos näin käy, mallisi on hyvä. Toki aina tulee leegio reunaehtoja ja näiden tunteminen on osaamista. Mitä monimutkaisempi tilanne, sitä tärkeämmäksi reunaehdot tulevat.

Mallin käyttöön kehitys-, suunnittelu- ja/ tai parannustoiminnassa voi olla useita. Tänä päivänä tuotannonohjaus- ja seurantajärjestelmät keräävät dataa, laitteet ja konelinjat rekisteröivät dataa, prosesseja mitataan ja mittatiedot tallentuvat, joten tietoa on todella paljon.

Seuraavaksi tarkastellaan yksinkertaista prosessiesimerkkiä. Tässä on kiinnostuttu prosessin jaksoajasta ja pyritään ymmärtämään siihen vaikuttavat tekijät sekä mitä pitäisi muuttaa, mikäli haluttaisiin lyhentää tai hallita tätä paremmin. Prosessi on todellisuudessa monivaiheinen ja tässä se on yksinkertaistettu, koska tavoitteena on mallinnuksen idean läpikäyminen. Todellisuudessa kohde voi olla siis joko palveluprosessi tai tuotantoprosessi.

Lähestytään tätä mallin luomista kuusivaiheisen prosessin avulla.

1. Löydä Y – nämä ovat oleellisia ulostulomuuttujia

Oleellinen Y tässä tapauksessa on jaksoaika. Aika on raportoitu tunneissa. 

Reaalimaailmassa tämä voisi olla tuotantonopeus, prosessointiaika, jokin laatuominaisuus liki mikä tahansa, joka pitäisi saada kuntoon tai paremmaksi.

2. Löydä X – nämä ovat oleellisia riippumattomia sisäänmenomuuttujia

Kun ongelma on tunnistettu ja valittu oleelliset Y-muuttujat, tulee kehittää oleelliset tähän vaikuttavat X-muuttujat. Nämä muuttujat ovat Y:n vaikuttavia tekijöitä, jotka saavat aikaan Y:n. 

Tässä vaiheessa ei yleensä tiedetä tarkkaan kaikkia tekijöitä, eikä se ole mahdollistakaan.

Tässä tapauksessa asiaa lähestytään kokemustietoperusteisesti ja operaatiotieteissä käytettävät mallit auttavat tekemään päätöksen muuttujien valinnasta.

Sisäänmenomuuttujien teoriasta päätteleminen voi helpottua, kun tekee kohteesta kuvauksen. Tässä kuvaus on tehty prosessikuvauksena, johon on sijoitettu mallinettavat elementit ja joihin muuttujat liittyvät.

Ylätason yksinkertaistus tilanteesta, missä kuvattu muuttujat (X) ja ulostulot (Y)
Kuva 2. Ylätason yksinkertaistus tilanteesta, missä kuvattu muuttujat (X) ja ulostulot (Y)

Tässä esimerkissä pidättäydytään yleisellä tasolla. Tähän voisi kehittää vielä paljon erilaisia tekijöitä, joista vähäisimmät eivät ole tilanteeseen vaikuttavat ulkoiset häiriötekijät, joilla on vaikutusta tarkasteltavaan tilaan prosessiin.        

3. Löydä FY ja FU – Kuvaa nykytila

Seuraavana suoritetaan nykytilakuvaus. On tunnistettavat tekijät, joihin voidaan vaikuttaa (FY) ja tekijät, joihin ei voida vaikuttaa (FU). Näitä kutsutaan ohjaus- ja häiriötekijöiksi. Jossain määrin ja käytännössä raja on häilyvä. 

Häiriötekijä on ulkoinen tekijä, johon ei voida vaikuttaa, kuten aurinko nousee idästä ja laskee länteen. Joskus voi mallinnuksessa olla halu tai tarve, että johonkin muutokseen alistutaan ja tästä päätetään tehdä häiriötekijä. 

Kuvassa on kuvattu hallittavat tekijät (FY). Ei hallittavat tekijät (FU) ei ole kuvattu.
Kuva 3. Kuvassa on kuvattu hallittavat tekijät (FY). Ei hallittavat tekijät (FU) ei ole kuvattu.

Kuvassa 3 suluissa (funktiossa) olevat muuttujat (X) ovat kuvauksesta. Suluissa olevat muuttujat ovat ne muuttujat, mistä dataa kerätään ja jaksoaika (Y) on ulostulomuuttuja. 

4. Löydä Y=f(x) – Kuinka Y ja X liitetään toisiinsa

Ulostulomuuttujien eli seurausten ja riippumattomien sisäänmenomuuttujien yhteys voidaan luoda eri keinoin. Malli voidaan luoda yleistä teoriaa hyödyntäen luomalla deduktiivinen malli. Deduktiivista mallia kutsutaan White Box -malliksi. Malli voidaan luoda kokeellisesti käyttäen satunnaistettuja kokeita, jolloin saadaan kausaalimalli. Tätä mallia kutsutaan Black Box -malliksi.

Tässä malli luodaan havaintotutkimustiedosta eli käytännössä aiemmin kerättyä aineistoa analysoimalla. Tätä kutsutaan Grey Box -malliksi eli korrelaatiomalliksi. 

Esimerkissä on tietoa vakaasta ympäristöstä noin 10 000 tunnin ajalta ja kahdeksasta selittävästä muuttujasta ja yhdestä vasteesta.

Malli luodaan Minitab-tilasto-ohjelman avulla ja käyttämällä siinä olevaan jatkuvan vasteen koneoppimisen mallia.

Malli tekee sovituksen osasta datasta, josta se valitsee sopivan keinon tehdä ko. tilanteeseen mallin. Osan datasta se käyttää mallin hyvyyden testaamiseen.

Minitab teki mallit viidellä eri tavalla ja raportoi niille sovituksen hyvyyttä neliösumman selitysasteen avulla. Lisäksi saa muita tunnuslukuja avuksi hyvyyden arviontii. Näistä parhaalle sovitukselle ohjelma tekee ennusteen, visualisoi ja voidaan optimoida tulos.

Minitab ohjelmiston perusulostulon yhteenveto.
Kuva 4. Minitab-ohjelmiston perusulostulon yhteenveto.

Kun ohjelmisto on luonut mallin, on tulosten tulkinta seuraavana vaiheena. 

Analyysi tapahtuu tarkastelemalla analyysin tuloksia sekä optimoimalla tulos eli on selvitettävä, kuinka päästään tavoitteeseen.

Ohjelmisto valitsi regressiomallin tässä tapauksessa parhaaksi. Ohjelmisto pienentää mallin automaattisesti ja luo korrelaatiomallin. Malli ja tunnusluvut kuvassa 5. Tässä kirjoituksessa ei keskitytä tunnuslukujen tarkasteluun.

Mallista poistetut tekijät sekä yhtälö y=(x). 
Kuva 5. Mallista poistetut tekijät sekä yhtälö y=(x). 

Huomio kuvan 5 tuloksiin. VIF (variables inflation factor) -arvo kuvaa mallissa olevien selittävien muuttujien keskinäistä riippuvuutta. Satunnaistetuissa kokeissa tämä on 1 tai lähelle sitä. Silloin tekijät ovat riippumattomia. Perinteisesti ajatellaan, että tämä arvo ei saisi olla yli 10. 

Tuloksista on luotu myös varianssianalyysin tulos. Tulos on kuvassa 6.

Kuvassa mallin Training eli sovitus datan että mallin testaamisdatan analyysin yhteenveto.
Kuva 6. Kuvassa mallin Training eli sovitus datan että mallin testaamisdatan analyysin yhteenveto. Lisäksi ANOVA-taulu, jossa on Adj SS -sarakkeessa säädetty varianssien summa. Luvun avulla voidaan arvoida tekijän vaikuttavuutta suhteessa toisiinsa sekä kokonaisvaihteluun.

Huomataan, että ohjattavien tekijöiden vaikuttavuuksissa on olemassa merkittäviä eroja. On myös huomioitava, että Error-termi eli ei hallittu vaihtelun osuus on suuri. 

Havaitaan, että mallin ja ennusteen onnistumistodennäköisyys on tässä esimerkissä noin 48 %. Tämä tarkoittaa, että selittämättömän vaihtelun osuus on iso suhteessa havaittuun vaihteluun. Tämä ei tarkoita, että on noin 48 % mahdollisuus osua tavoitteeseen.

5. Löydä V(Y, XC, FU) – Mikä on tavoite

Esimerkissä on tarkoitus tavoitella lyhyempää jaksoaikaa. Reaalimaailmassa vasteita ja tavoitteita on useita. Ristiriitaisten tavoitteiden optimointeja varten tarvotaan arvofunktio (V). 

Esimerkiksi, jos halutaan lyhentää jaksoaikaa ja tällä voisi olla vaikutus prosessin läpimenoon, tulisi olla arvofunktio, millä jaksoaika ja läpimeno arvotetaan optimointia varten. Koska tässä esimerkissä on vain yksi vaste ja muista ei tarvitse välittää, ei tarvita arvofunktiota.

6. Löydetään paras ratkaisu V(Y, XC, FU) – Kuinka tilanne on ratkaistu

Mallin ja siinä olevien hallittavien tekijöiden avulla voidaan hakea optimiratkaisu. Tässä esimerkissä haetaan valittujen tekijöiden (XC) eli hallittavien tekijöiden asetukset millä päästään tavoitteeseen häiriötilanteet (FU) huomioiden mukana ollessa.

Minitab generoi kuvat päätekijöille sekä keskinäisvaikutuksille. 
Kuva 7. Minitab generoi kuvat päätekijöille sekä keskinäisvaikutuksille. 

Kuvasta 7 on havaittavissa teorian vastainen ilmiö. Päätekijävaikutuskuvasta on havaittavissa, että läpimenon (TH) kasvaessa jaksoaika pidentyy. Tämä ei ole mahdollista, koska ilmiö olisi sama kuin auton nopeuden kasvaessa maantiellä matka-ajan kesto kasvaisi.

Kun tarkastellaan oikeanpuoleista keskinäisvaikutuskuvaa, huomataan päätekijäkuvasta havaitulle oudolle ilmiölle luonnollinen selitys. Oikean alareunan kuvasta nähdään, että WIPTOT kasvaessa TH kasvaa ja samalla, koska WIPTOT kasvaa, jaksoaika pitenee. Eli autolla ajaessa, pitkällä ajomatkalla keskinopeus on helppo pitää korkeana, samalla matka-aika kestää pidempään. Eli mallissa olevat asiat korreloivat keskenään. Tämä sama ilmiö näkyy mallin taulukossa (kuva 4) korkeana VIF -arvona alimmalla rivillä (23,54).

Alla olevassa kuvassa on esitetty Minitabin optimointityökalun ulostulo.

Ratkaisu - Minitab. 
Kuva 10. Ratkaisu. 

Optimointitulos on kuvassa 10. Tavoitteeksi Y:lle asetettiin 14 tuntia. Mallissa on myös läpimeno, koska on prosessivaiheen 2 ulostulo ja muuttuja ulostulomuuttujalle (Y). Läpimenolle on asetettu vakio arvo 3 kappaletta. Punaisella yläosassa ehdotus x-muuttujien arvoiksi ja vasemmalla Y-arvon ennuste.

Tämän jälkeen on hyvä varmistaa mallin toimivuus ja suorittaa varmistuskoe. 

Lopuksi

Kirjoituksessa käytetty esimerkki on yksinkertainen ja yksinkertaistettu. Tarkoituksena oli esitellä analyyttistä ongelmanratkaisuprosessia ja kuinka esitelty kuusivaiheinen prosessi tukee ratkaisun löytymistä.

Vuonna 2013 esiteltiin Quality Progress -lehdessä kuvassa 11 oleva nelikenttä. Olen tätä liki kaikissa koulutuksissa pitänyt esillä, jotta erilaiset ongelmatilanteet jäsentyvät. Ongelmat ja keinot ovat erilaisia. Lääkärin tavoitteena on saada terve ja työkykyinen henkilö. Tämän jälkeen tulee tehdä diagnoosi ja tämän jälkeen tulee keinot. 

Neljä ongelmaa, neljä lähestymistä.
Kuva 11. Neljä ongelmaa, neljä lähestymistä.

Kuvassa 11 esitellysti ongelma voi olla yksikertainen ja ratkaisu on tunnettu, jolloin toiminta on Just do It. Liiketoiminnan kannalta kysymys on, miten se tunnistetaan ja kuinka se hoidetaan, jos tarve on tehdä jotain.

Toiminta voi olla myös erityissyy, normaalista poikkeava tilanne, missä ratkaisu ei ole tunnistettu. Tällöin tarvitaan ongelmanratkaisukeinoja selvittämään yksittäistä tilannetta ja pohtimaan mikä on muuttunut.

Nelikentän vasen alalaita kuvaa monimutkaista tilannetta, missä ratkaisu on tunnettu. Näitä käsitellään esimerkiksi operaatiotieteissä ja tähän sopii eriomaisesti deduktiiviset mallit. Malleja on paljon ja soveltamiskeinoja on paljon.

Nelikentän oikea alalaita käsittelee tilanteista, missä ei ole mitään merkittävää poikkeamaa olemassa, mutta suorituskyky ei vaan riitä ja ratkaisu on tuntematon. Tähän käytetään Six Sigmaa ja kausaalimalleja eli Black Box -malleja. 

Tämän artikkelin tarkoituksena oli esitellä analyyttinen ongelmanratkaisuprosessi ja sen vaiheet ykkösestä kuuteen ja kuvata, kuinka korrelaatiomalli luodaan. Korrelaatiomalleja voi käyttää nelikentän kuvan 11 alaosan molemmissa tapauksissa, jos kausaalimallin tai deduktiivisen mallin käyttäminen ei ole mahdollista. 

Me kaikki käytämme malleja ja seikkailemme monimutkaisessa pirstaloituneessa tietomaastossa niin kotona kuin töissä. Hyvä malli auttaa, huono sekoittaa ja ohjaa väärin. 

Lähteet:

  1. J. D. Mast, S. H. Steiner, W. P. M. Nuijten & D. Kapitan. 2022. Analytical Problem Solving Based on Causal, Correlational and Deductive Models
  2. Roger W. Hoerl ja Ronald D. Snee: One Size Does Not Fit All – Identifying the right improvement metodology, Quality Progress, May 2013
  3. Minitab – Stat/ Doe/ Factorial – valikko

Kommentoi artikkelia

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Tämä lomake on suojattu Google reCAPTCHA:lla. Lue tietosuojaseloste ja käyttöehdot.

Tilaa uutiskirje

Liity postituslistalle ja saat uusimmat artikkelit suoraan sähköpostiisi.