Tervehdys! Ajattelin tänään kirjoittaa hieman datasta. Kaikki varmasti tuntevat ja käyttävät tätä modernin maailman voimavaraa. Dataa on verrattu jopa sähköön, sillä se toimii infrastruktuurina ja mahdollistajana nykyaikaisten liiketoimintojen ja operaatioiden tarpeisiin. Vertaus taitaa kestää päivänvaloa, sillä myös sähkö muutti aikoinaan jokaisen toimialan. Tekoälyn nopea kehitys tukee tätä kuvausta entisestään, sillä myös kielimallit ja tekoälysovellukset toimivat täysin datan varassa, samalla tavalla kuin laitteet toimivat sähkön varassa.
Data itsessään on hyvin harvoin valmista hyödynnettäväksi, vaan yleensä se vaatii käsittelyä ja jalostusta. Me olemme vuosien varrella nähneet asiakkaillamme monenlaisia haasteita ja ongelmia datan kanssa. Usein ongelmien taustalla on neljä tekijää: saavutettavuus, luotettavuus, ajantasaisuus ja ymmärrettävyys. Nämä neljä tekijää määrittävät sen, kuinka tehokkaasti dataa voidaan hyödyntää.
Entä miten teidän organisaatiossanne käytetään dataa? Onko pääasiallinen työkalu Excel, jokin analytiikkatyökalu kuten Power BI, Qlik tai Tableau? Vai onko tekoälyavusteinen analytiikka jo arkipäivää? Datan kuluttajia on monenlaisia, ja valinnanvaraa on enemmän kuin koskaan. Meidän teknologiablogien kautta haluamme jakaa omaa filosofiaamme datan hyödyntämisestä. Aloitetaan perusteista.
Analytiikka ja tekoäly tarvitsevat kestävän perustan
Monissa organisaatioissa analytiikkamatka alkaa tutulla tavalla. Valitaan yksi yhteinen työkalu, keskitetään kehitys sen ympärille ja perustetaan tiimi vastaamaan raportoinnista. Alkuun tämä toimii hyvin: ylläpito pysyy hallinnassa, osaaminen keskittyy ja kustannukset ovat ennakoitavia. Ajan myötä alkaa kuitenkin ilmaantua säröjä. Kun kaikki pakotetaan samaan muottiin, monet käyttäjät eivät saa dataa silloin kun sitä tarvitsevat eivätkä siinä muodossa kuin sitä tarvitsevat.
Pienissä organisaatioissa keskitetty analytiikka on vielä toimiva ratkaisu, mutta suuremmissa organisaatioissa pullonkaulat kasvavat nopeasti. Ratkaisujen käyttöaste jää helposti alhaiseksi ja käyttäjät rakentavat omia kiertoteitään. Siksi analytiikkatoiminnot kannattaa organisoida mahdollisimman lähelle liiketoimintaa. Liiketoimintafunktiot voivat vastata omasta analytiikkatarpeestaan IT:n tuella tai ilman. Tärkeintä on, että omistajuus on mahdollisimman lähellä niitä, jotka dataa tarvitsevat.
Tässä pätee myös johtamisopeista tuttu viisaus: ”Johtajan tehtävä on määrittää tavoite, ei sanella yksityiskohtaisesti tapaa miten sinne päästään”. Analytiikan ja tekoälyn kohdalla se tarkoittaa, että liiketoimintafunktioiden tulisi voida vaikuttaa siihen, miten ja millä välineillä he dataa hyödyntävät.
Miten tämä sitten mahdollistetaan? Analytiikka ja tekoäly tarvitsevat kestävän perustan, ja hajautetussa mallissa tämä korostuu entisestään. Se perusta on data-alusta.
Data-alusta kaiken ytimessä
Data-alusta on se kerros, joka kokoaa organisaation datan yhteen, huolehtii sen laadusta ja tarjoaa sen eteenpäin eri työkaluihin ja käyttäjille. Organisaation koosta riippumatta data-alustan rakentaminen on järkevä investointi, sillä ilman sitä jokainen analytiikkatyökalu, tekoälyratkaisu ja analytiikkatiimi joutuu ratkaisemaan samat perusongelmat erikseen.
Kun asiaa tarkastelee loppukäyttäjän näkökulmasta, samat neljä tekijää nousevat ylitse muiden: saavutettavuus, luotettavuus, ajantasaisuus ja ymmärrettävyys. Nämä neljä yhdessä ratkaisevat sen, kokeeko käyttäjä datan hyödylliseksi vai turhauttavaksi. Käyn ne läpi yksitellen.
Saavutettavuus: data sinne, missä sitä tarvitaan
Saavutettavuus tarkoittaa yksinkertaisesti sitä, että oikea ihminen saa oikean datan oikeaan aikaan ilman turhia välikäsiä tai odottelua. Kuulostaa itsestään selvältä, mutta käytännössä juuri tässä kohtaa organisaatiot usein kompuroivat.
Tyypillinen kipupiste näyttää tältä: myyntitiimi tarvitsee tuotteiden myyntiluvut kampanjoiden suunnittelua varten. He lähettävät pyynnön analytiikkatiimille. Vastaus tulee neljän päivän päästä. Siihen mennessä suunnitelmat ja päätökset on jo tehty, arvaukseen perustuen.
Saavutettavuuteen vaikuttavat kolme konkreettista asiaa:
Tekninen saavutettavuus tarkoittaa, että data on tallessa paikassa, johon käyttäjillä on pääsy. Kuulostaa yksinkertaiselta, mutta monissa organisaatioissa data on hajallaan eri järjestelmissä, pilvipalvelimilla, tietokannoissa ja sähköpostiketjuissa eikä kukaan tiedä tarkalleen, mistä mikäkin luku löytyy. Juuri tämän ongelman data-alusta ratkaisee kokoamalla datan yhteen paikkaan.
Oikeuksien hallinta on saavutettavuuden toinen puoli. Datan pitää olla avoinna niille, jotka sitä tarvitsevat, mutta ei kaikille. Liian tiukka hallinta johtaa siihen, että käyttäjät alkavat kiertää järjestelmää: kopioidaan raportteja sähköpostiin ja rakennetaan omia varjojärjestelmiä. Silloin menetetään juuri se hallinta, jota oikeuksilla yritettiin saavuttaa.
Käytettävyys on kenties aliarvostetuin tekijä. Data voi olla teknisesti saavutettavissa, mutta jos sen hakeminen vaatii SQL-osaamista tai monimutkaisen järjestelmän opettelua, se jää suurimmalta osalta käyttäjistä saavuttamatta. Tästä syystä itsepalveluanalytiikka, eli se, että liiketoimintakäyttäjä voi itse hakea tarvitsemansa datan, on ollut niin keskeinen tavoite data-arkkitehtuureissa, mutta valitettavan usein tämä tavoite on jäänyt vain kauniiksi ajatukseksi.
Tekoäly avaa uusia mahdollisuuksia: parhaimmillaan käyttäjä voi esittää kysymyksen luonnollisella kielellä ja saada vastauksen ilman, että hänen tarvitsee tietää, missä taulussa data sijaitsee. Tämä ei kuitenkaan poista tarvetta hyvälle data-alustalle, vaan päinvastoin vaatii sitä. Tekoäly on yhtä hyvä kuin data, jonka päälle se rakentuu.
Luotettavuus: onko luku oikein?
Jos saavutettavuus varmistaa, että data löytyy, luotettavuus varmistaa, että päätöksiä voi tehdä dataan perustuen. Luotettavuuden puute näkyy organisaatiossa nopeasti, ja sen seuraukset ovat ennen kaikkea inhimillisiä. Kun päättäjät eivät tiedä, mihin lukuun luottaa, he alkavat epäillä kaikkea dataa. Tai pahimmillaan valitsevat sen luvun, joka tukee heidän ennakkokäsitystään. Tällöin data ei ohjaa päätöksentekoa, vaan ainoastaan perustelee jo tehtyjä päätöksiä. Luottamuksen menettäminen on nopeaa, sen takaisin rakentaminen hidasta.
Luotettavuuden varmistaminen vaatii kaksi asiaa:
Datan laadun valvonta. Datan matka lähdejärjestelmästä raporttiin on pitkä, ja jokaisessa vaiheessa voi tapahtua virheitä. Rivejä voi kadota, arvot voivat vääristyä muunnoksissa ja lähdejärjestelmän muutos voi rikkoa latauksen huomaamatta. Automaattiset tarkistukset, jotka valvovat rivimääriä, arvojen jakaumia ja keskeisiä tunnuslukuja, ovat välttämättömyys, eivät ylellisyys. Virheitä tulee aina ennemmin tai myöhemmin, mutta tärkeää on havaita ja korjata virheet ennen kuin ne valuvat käyttäjien raporteille ja vaarantaa analyysien tekemisen.
Datan alkuperän läpinäkyvyys. Käyttäjän pitää voida tietää, mistä luku tulee ja milloin se on päivitetty. ”Myynti Q3” ei riitä, vaan käyttäjän on saatava nähdä, onko tieto haettu eilen illalla vai kaksi viikkoa sitten, mistä lähdejärjestelmistä se on koottu ja onko matkalla tehty merkittäviä rajauksia tai muunnoksia. Tätä kutsutaan myös datan jäljitettävyydeksi, ja se on samalla sekä luotettavuuden että vianselvityksen perusta. Kun jokin menee pieleen, alkuperän läpinäkyvyys on se, joka kertoo missä vika on.
Luotettavuus on luonteeltaan kumulatiivinen. Yksi virheellinen luku raportilla voi heikentää luottamusta koko järjestelmään ja luottamuksen palauttaminen vaatii toistuvasti onnistuneita kohtaamisia datan kanssa. Siksi luotettavuuteen kannattaa panostaa jo data-alustan rakentamisen alkuvaiheessa, ei vasta silloin kun ongelmat alkavat kasaantua.
Ajantasaisuus: kuinka tuore data riittää?
Ajantasaisuus on neljästä tekijästä se, jossa organisaatiot tekevät eniten turhaa työtä ja turhia kustannuksia. Se linkittyy suoraan kahteen edelliseen pointtiin: data voi olla saavutettavaa ja luotettavaa, mutta jos se on liian vanhaa päätöksenteon hetkellä, hyöty jää saamatta.
Yleinen virhe on olettaa, että kaiken datan pitää olla reaaliaikaista. Strateginen johto ei tarvitse sekunnin tarkkuudella päivittyvää dashboardia. Hyvin laadukas viikoittainen kokonaisnäkymä riittää usein mainiosti. Sen sijaan esimerkiksi verkkokaupan varastosaldo saattaa olla kriittistä päivittää useita kertoja tunnissa.
Oikea kysymys ei ole ”miten saamme kaiken datan reaaliaikaiseksi?” vaan ”kuinka tuoretta dataa kukin päätös oikeasti vaatii?”
Tähän kysymykseen vastaaminen auttaa tekemään järkeviä arkkitehtuurivalintoja. Eräajoilla päivitettävä data on edullisempaa, yksinkertaisempaa ja usein täysin riittävää suureen osaan käyttötapauksista. Reaaliaikainen datavirtaus on tarpeellinen siellä, missä viive oikeasti maksaa, esimerkiksi asiakaspalvelussa, tuotannossa tai poikkeamien havaitsemisessa.
Käytännön vinkki: käy läpi tärkeimmät käyttötapauksesi ja kysy jokaiselta erikseen: ”Mitä tapahtuu, jos tämä data on tunnin vanha? Entä päivän?” Useimmiten huomataan, että reaaliaikaisuus on välttämätöntä huomattavasti harvemmin kuin aluksi luultiin. Monissa projekteissa reaaliaikavaatimuksia on voitu keventää merkittävästi.
Ymmärrettävyys: yhteinen merkitys ihmisille ja työkaluille
Vaikka data olisi saavutettavissa, luotettavaa ja ajantasaista, se voi aiheuttaa enemmän hämmennystä kuin hyötyä, jos mittarit ja luvut ovat epäselviä. Ymmärrettävyys on noussut kriittiseksi viime vuosina, kun datan kuluttajia eivät enää ole pelkästään ihmiset, vaan myös tekoälyagentit tekevät toimenpiteitä ja päätöksiä datan perusteella.
Tyypillinen tilanne on, että dashboardilla näkyy mittari, esimerkiksi konversioprosentti. Luku on 3,2. Onko se hyvä? Verrattuna mihin? Entä miten se on laskettu? Jos käyttäjä joutuu kysymään jokaisen luvun kohdalla vastaavia kysymyksiä, datasta tulee enemmän taakka kuin tuki. Sama ongelma toistuu, kun tekoälyagentti yrittää vastata kysymykseen ”miten myynti kehittyi viime kuussa”. Jos tekoäly ei tiedä, mitä ”myynti” tarkoittaa juuri tässä organisaatiossa, vastaus on parhaimmillaan epämääräinen ja pahimmillaan virheellinen.
Ratkaisu molempiin ongelmiin on sama: semanttinen näkymä datan päällä. Semanttinen kerros on ohut mutta merkityksellinen rakenne, joka kääntää teknisen datan liiketoiminnan käsitteiksi. Se määrittää keskitetysti, mitä ”asiakas”, ”myynti”, ”katetuotto” tai ”aktiivinen käyttäjä” tarkoittavat, miten ne lasketaan ja millä rajauksilla. Kun tämä määritellään yhdessä paikassa, kaikki työkalut ja käyttäjät saavat saman vastauksen samaan kysymykseen, riippumatta siitä avataanko luku Power BI:ssä, kysytäänkö sitä tekoälyltä vai noudetaanko se Excelin kautta.
Kun semanttinen näkymä on kunnossa, ymmärrettävyys lakkaa olemasta yksittäisen raportin ominaisuus ja muuttuu osaksi data-alustan rakennetta. Käyttäjälle se näkyy siten, että luvut tarkoittavat samaa asiaa työkalusta riippumatta. Tekoälyagentille se tarkoittaa, että vastaukset ovat jäljitettäviä ja perusteltavissa. Kummassakin tapauksessa lopputulos on sama: data on ymmärrettävää, ja siitä voi myös keskustella mielekkäästi.
Yhteenveto: perusta ensin, rakenna päälle
Aloitimme kysymyksellä siitä, miten organisaatiossasi käytetään dataa. Olipa vastaus Excel, Power BI, Qlik tai tekoälypohjainen työkalu, lopputulos riippuu siitä, millaisen perustan olette rakentaneet. Saavutettavuus, luotettavuus, ajantasaisuus ja ymmärrettävyys eivät ole erillisiä projekteja vaan saman kokonaisuuden eri puolia. Hyvin rakennettu data-alusta huolehtii kaikista neljästä järjestelmällisesti, jolloin liiketoiminta voi keskittyä siihen, mikä oikeasti merkitsee: datan hyödyntämiseen päätöksenteossa.
Seuraavaksi blogissa kirjoitan siitä, miltä tällainen data-alusta käytännössä näyttää ja mistä rakennuspalikoista se koostuu. Jos sinulla heräsi nyt jo ajatuksia tästä, keskustelemme mielellämme teidänkin organisaationne datatilanteesta.



