lauantai 17. lokakuuta 2015

Datapolitiikasta tietopolitiikkaan ja datavaraston hallittuun aukaisuun, 20.10.2015


Mutkainen tie datavarastoon (Viite 1)
Datavaraston aukaiseminen. Datapolitiikka tuli vastaan muutama viikko sitten, kun olin THL:n datapolitiikkatyöpajassa. Suuri osa oli THL:n väkeä, mutta oli siellä monipuolinen joukko laitoksen ulkopuolisiakin. Termi "datapolitiikka" oli minulle uusi. Ajattelin, että se on nyt keksitty hallitsemaan THL:n yli 800:aa tietovarantoa ja antamaan  ryhtiä uudistuksille. Hyvä! Jäin kuitenkin ihmettelemään, miksi kyse on datapolitiikasta. Data on tietohierarkian alin taso eli raaka-ainetaso, raaka-ainevarasto. Politiikka on puolestaan "yhteisten asioiden hoitoa". THL:n datapolitiikassa siis pyritään tekemään politiikkaa tiedon raaka-aineella. Selvitin asiaa eteenpäin ja havaitsin, että OPM on julkistanut avoimen tieteen ja tutkimuksen tiekartan. Se on OPM:n datapolitiikkaa. Selvitin vielä lisää. Helsingin yliopisto on on julkistanut oman avoimen tieteen datapolitiikkansa. Kyse on siis ennen muuta tieteenharjoittajien omien henkilökohtaisten aineistojen avaamisesta laajempaan käyttöön. Suurin osa näistä THL:n 800 aineistosta on juuri tällaisia henkilökohtaisia tai tutkimusryhmien aineistoja. Datapolitiikka on siis ennen muuta avoimen tieteen asialla. (2)
Informatica
Dataintegraatiota tyhmille

Datapolitiikka ei vain avointa tiedettä. Datapolitiikka THL:n ajattelussa sisältää kuitenkin kaiken datan - siis myös erilaiset tilastot, rekisterit ja indikaattoripankit. Tämä on hieno avaus laajempiin tietovarastoihin. Datapolitiikan ajatuksellinen ydin on avoimessa tieteessä, ei avoimessa datan-informaation-tiedon hyödyntämisessä kaikkiin tarkoituksiin - myös toiminnan ohjaukseen ja päätöksentekoon. Suora kopiointi avoimen tieteen maailmasta ei siis riitä. Datapolitiikassa on laajemmin kyse datan hyödyntämisestä (liike)toiminnassa. Näin tutkimusnäkökulma ei ole ainoa näkökulma datapolitiikassa. Datan hyödyntämisessä toiminnassa on mahdollistettava erilaisten datojen integraatio. (3) Julkaisu "Data Intergration for Dummies" (4) antaa keskeiset viiisi vaatimusta datalle: 1) datan moninaisuus (variety), 2) datan määrä (volume), 3) nopeus (velocity), 4) datan totuudenmukaisuus (veracity), 5) datan arvo (value).

Variety (datan moninaisuus). Toiminnan ohjaamiseen tarvitaan kaikki relevantti data, vaikka eri datat eivät välttämättä ole alkutilanteessa yhteensopivia. Metadata-analyysin avulla voidaan hakea tietyt ydintiedot, joiden avulla voidaan eri datalähteet saada jollain tapaa yhteismitallisiksi.  Tässä THL:n tapauksessa periaatteessa kaikki tutkimus- ja rekisteridata on saatavissa samalle "viivalle", koska ne ovat strukturoitua dataa. Kanta- ja tuleva Kansa-tietovarannot sisältävät myös strukturoimatonta dataa, joihin  tarvitaan erityisiä analyysityökaluja ja /tai rinnakkaista tietovarastoratkaisua.

MDM kuvaVolume (datan määrä). Datan määrän huomioon ottaminen on tietovarastoasia ja palvelininfran kapasiteettiasia. Varmista, että datan integroinnin välineet ovat helposti skaalattavissa datan määrän kasvaessa. Näin tässä tyhmien ohjeessa kerrotaan. Jotta data voidaan saada uudella tapaa hyödynnettyä, on tehtävä paljon erikseen olevien datavarastojen yhdistämistyötä. Tämä liittyy myös nyt muodissa oleviin käsitteisiin "masterdata" ja "big data". Oheinen kuvio valaiseen datan uudelleen varastoinnin haastetta. (5)

Velocity (datan nopeus). Toiminnan ohjauksessa keskeistä on datan ajankohtaisuus eli nopeus saada se prosessoitua käyttäjien tarpeisiin. Tässä vaatimuksessa on eroja erilaisten käyttötarkoitusten kesken. Tutkimustoiminnassa nopeus ei ole samalla tapaa keskeinen tekijä. Sotemaailmassa tarvitaan panostusta datan nopeuteen. Kun soteuudistusta pistetään käytäntöön, pitää saada aikaan mahdollisimman reaaliaikainen kattava toiminnanohjausjärjestelmä. Tähän ei riitä vallalla oleva hidas rekisteripohjainen tiedon keruusysteemi, jossa tietoja päästään hyödyntämään vasta seuraavana vuonna tai jopa ylivuotisesti. (6).

digitaalinen palvelualustamalli
Kansallinen palveluväylä (KAPA, viite 7)
Veracity (datan totuudenmukaisuus). Datan luotettavuus on erityisen tärkeä ominaisuus kaikessa käyttötarkoituksessa. Tutkimustoiminnassa tosin voidaan hyödyntää dataa, joka on riittävän kattavaa ja luotettavaa. Päätöksenteossa ääritapauksissa datan pitää olla täysin luotettavaa. Sote-valvontatieto on ääriesimerkki datan luotettavuudesta. Muuten poikkeamiin ei voida puuttua uskottavasti. Totuudenmukaisuutta edistää ns. yhden kirjauksen periaate ja se, että kirjaajallekin syntyy välitön hyöty tästä tietotyöstä. Datan totuudenmukaisuutta edistää myös sen monipuolinen käyttö. Ja sitten vielä lopuksi datan keruussa, varastoinnissa ja käytössä on myös laatuperiaatteet ja laadun tarkistuksen eri vaiheet. Jo datan kirjaamisvaiheessa voidaan rakentaa erilaisia datan laatua kohottavia välineitä (estot, huomautukset, suositukset, ohjeet). Niin ja sitten on tämä kertakirjausta edistävä asia eli kerran kirjatun tiedon hyödyntäminen. Tätähän edistää mitä suurimmassa määrin kansallinen (Virosta lainattu) KAPA-hanke eli kansallinen palveluväylä. (ks. oheinen kuva)

Value (datan arvo). On aina tiedettävä, mihin tarkoitukseen dataa halutaan käyttää. Mikä on datan arvo osana päätöksentekoa tai uusien mahdollisuuksien avaamista? Toisaalta tänä bigdata-aikakautena halutaan myös korostaa sitä, että kannattaa kerätä dataa mahdollisia tulevaisuuden tarpeita varten. Olen kuitenkin datan loppukäyttäjänä tarkka siitä, mihin tarkoitukseen tuota dataa käytetään. Tässä "Dummy"-kirjasessa ei nosteta kovin korkealle datan väärinkäytön mahdollisuuksia. Yksilön tietoturva on keskeinen läpimenevä periaate, joka nostetaan myös osaksi kokonaisarkkitehtuuria (toiminta - tieto - tietojärjestelmä - teknologia - tietoturva). Siis kuka ja miten saa käyttää dataa? (8)

Datapolitiikasta tietopolitiikkaan. Datapolitiikan sijasta pitäisi puhua tietopolitiikasta, joka siis käsittää datan, informaation, tiedon ja tietämyksen kokonaisuuden. Tietopolitiikka koskee sekä tieteessä syntyvää tietoa että toiminnassa syntyvää tietoa. Dataa on jalostettava yllä esitettyjen jalojen periaatteiden avulla. Koko tiedonhallinnan prosessin on nojauduttava kokonaisarkkitehtuuriin ja siinä julistettuihin periaatteisiin. Tietoturva on sisään leivottava tietopolitiikan kokonaisuuteen. Lainsäädäntö on rakennettava tukemaan viisasta tietopolitiikkaa. Niin tieto-omaisuutta on kehitettävä ja hallittava strategisesti. (9).  Verottajan työtä kannattaa pitää hyvänä esimerkkinä tuon viranomaisen harjoittamasta tietopolitiikasta. Tuloksia on syntynyt meille kaikille. (10).

Päivitys 17.10.2015: Sain nopeasti FB:n kautta kommentin käsitteeseen "datapolitiikka". Hienoa. Sitä kaipasinkin. Datapolitiikka on THL:n ja myös Helsingin Yliopiston käyttämä termi. Toinen termi on dataintegraatio, joka on peräisin Wikipediasta. Kumpaakin termiä Sami kommentoi kriittisesti.  Siteeraamassani monisteessa " Data Integration for Dummies" ei ole lyhyesti määritelty tätä dataintegraatiota.  Tässä kommentti:
Sami Kristian Laine Tuo datapolitiikka ei ole minusta hyvä suomennos tuolle käsitteelle.
"Huomioiden nuo organisaatiot ja linkit, joita käytät, niin kyseessä on ehkä "data policy" ja sitä kuvaisi paremminkin "tiedonhallinnan toimintamalli" tai "tiedonhallinnan käytännöt". Minusta kyseessä ei ole "data politics". Tähän "data policy" aihepiiriin linkittyy mm. rekisteriselosteet, arkistointisuunnitelmat, tietoturvaselosteet ja vastaavat tarkemmin rajatut ja perinteiset toimintatavat.Olen seurannut näitä aika kauan sekä tieteen että terveydenhuollon näkökulmasta. Mukana myös kommentoijana tai aktivistina. Näiden kansallisten hankkeiden kautta kaikki (lähes) yliopistot ovat joutuneet aktivoitumaan asiassa ja mm. THL on herännyt tähän tarpeeseen. Tähän liittyy laajempikin datan avaamisen kehittäminen valtakunnallisesti ja eri puolilla julkishallintoa.Suomessa ollaan vielä aika alussa tässä kokonaisvaltaisessa hallinnoinnissa ja ennen kaikkea sen käytännön tukemisessa. Toiminta on vielä hyvin pitkälle historiallisia rekisteriseloste-, arkistointi-käytäntöjä, jotka on rakennettu tietoa tuottavan yksikön näkökulmasta. Ei asiakkaille tai tiedon hyödyntäjille. LISÄYS: Mikä olisi tuolle hyvä suomennos - en oikein itsekään tiedä mikä se olisi. Toimintamalli on hiukan liian laaja ja toimintaan liittyvä, kun data policylla viitataan usein hallinnoinnin tavoitelinjauksiin. Politiikka ei oikein minun mielestäni sovi myöskään tähän, mutta toki se on vain oma näkemys...PS. Kannattaa välttää noita wikipedia-viitteitä. Ne on tiedonhallinnan osalta usein varsinaista kuraa varsinkin suomenkielellä, mutta usein myös englanniksi. Valitettavasti. Esim. tuo linkittämäsi dataintegraatio on tosi kujalla olevaa tekstiä... Ei ole selvästikään aihepiirin tuntevan henkilön tekemää tekstiä."


Päivitys 20.10.2015: THL avoimen datan ideoiden perässä
Terveyden ja hyvinvoinnin laitos (THL) kerää ideoita laajojen terveysaiheisten aineistojen käyttöön.
– Etsimme esimerkiksi sovelluksia joilla voi vertailla liikkumista, ravitsemusta ja muita elintapoja parhaiden vaihtoehtojen löytämiseksi. Olemme myös kiinnostuneet sovelluksista, joilla voisi vertailla julkishallinnon toimintatapoja, tiedote kertoo.
http://www.mediuutiset.fi/uutisarkisto/terveyden+ja+hyvinvoinnin+laitos+keraa+avoimen+datan+kayttoideoita/a1070787
https://www.thl.fi/fi/-/mihin-kayttaisit-thl-n-avointa-dataa-

Viitteet

(1) Data Repository = datan säilytyspaikka, varasto. Tämäkin käsite on määritelty ja sen ympärillä on omat nettisivunsa: "Data repository is a somewhat general term used to refer to a destination designated for data storage. However, many IT experts use the term more specifically to refer to a particular kind of setup within an overall IT structure, such as a group of databases, where an enterprise or organization has chosen to keep various kinds of data."
https://www.techopedia.com/definition/23341/data-repository


(2) Avoin tiede: Kyse on julkaisujen ja tutkimusaineistojen avoimesta saatavuudesta (kuten avoin lähdekoodi) ja menettelytapojen vaikuttavuuden mittaamisesta. Tiedeyhteisö ympäri maailmaa pyrkii edistämään avointa tiedettä. Moni tutkimusten ja julkaisujen hyväksikäyttäjä tuntee kuitenkin ongelmat eli hyvä viite voi pysähtyä etsinnässä maksuautomaattiin ja näin jäädä siinä akuutissa tilanteessa hyödyntämättä. Wikipediassa asiaa on käsitelty kattavasti. Samoin "avoin tiede" -kotisivuilla on linkit kaikkiin ajankohtaisiin suomalaisiin aktiviteetteihin. THL:n ylläpitämä "Julkari" pitää sisällään sotemaailman tutkimuksia vapaasti luettavissa ja haettavissa.
- https://fi.wikipedia.org/wiki/Avoin_tiede
- https://en.wikipedia.org/wiki/Open_science
- http://avointiede.fi/home
- https://www.julkari.fi/
- Helsingin yliopistolla on jo vuonna 2011 julkistettu työryhmän mietintö datapolitiikasta: http://hdl.handle.net/10138/2845

(3) "Dataintegraatiolla tarkoitetaan tiedon muuntamista ja kuljettamista tietojärjestelmästä toiseen. Tietoelementit voivat sijaita useammassa kuin yhdessä erillisessä järjestelmässä. Tyypillisesti dataintegraatio ajatellaan useamman lähdeaineiston tietokuvauksen muuntamisena yhteen yhdenmukaistettuun muotoon, jota tiedon tarvitsijat käyttävät. Lähde- ja kohdeaineistot kuvataan nykypäivänä tyypillisesti skeemoin ja niiden välistä muunnosta kuvataan nykypäivänä usein XSL-muunnoksella. Dataintegraatio ei kuitenkaan millään lailla rajoitu XML-teknologioiden käyttöön." https://fi.wikipedia.org/wiki/Dataintegraatio
Brian Underdahl (viite 4) määrittelee laajasti dataintegraation, mutta ei anna yksikäsitteistä määritelmää. On ymmärrettävä, mitä datalla tarkoitetaan (strukturoitua, semistrukturoitua tai strukturoimatonta dataa; sensoridataa). Dataan liittyy metadata. Siihen littyy myös big data. Kysymys on datan integrointiprosessista, jossa integroinnin välineenä voidaan käyttää pilvipalveluita tai paikallisia palveluita tai hybridisti molempia. Datan integrointi edellyttää erilaisten välineiden käyttöä, kuten mappaus, yhteiset termit ja käsitteet, datan laadun periaatteet.

(4) Brian Underdahl: Data Intergration for Dummies, John Wiley & Sons 2014 (Informatica Special Publication)

(5) Big data ja masterdata: Big datan ja masterdatan suhdetta ja merkitystä kuvaa hyvin Tero Laatikaisen blogikirjoitus "Master Data on monisyistä, monista syistä". Laatikainen toteaa mm. seuraavaa: " Master Data on ennen kaikkea liiketoimintakriittistä tietoa. Kaikki toiminnot hyödyntävät jotain Master Dataa prosesseissaan. Master Dataa tarvitaan strategisessa suunnittelussa, taktisessa johtamisessa ja jokapäiväisessä operatiivisessa toiminnassa. Arkkitehtuurin näkökulmasta Master Data kytkeytyy edellisten tueksi tietovarastoihin sekä operatiivisiin järjestelmiin."
http://www.arihovi.com/master-data-blogi/

(6) Datan nopeus: Tätä asiaa pohdiskelin taannoin blogikirjoituksessani (toukokuu 2014), jossa päädyin hiukan masentaviin lopputuloksiin: Työpöytä puuttuu. Soteuudistus edellyttäisi kattavaa tiedonhallintaa sotealueittain, palvelujen tuottajittain ja aina operatiiviselle tasolle saakka. Myös valtakunnallinen suunnittelu, ohjaus ja valvonta edellyttäisivät yhteensopivaa tiedonhallintaa ja lopputuoteratkaisu - työpöytää. Tarvittaisiin vielä ennustavuutta, riskien esiin nostavaa tiedonhallintaa jne. Eli kaukana ollaan vielä ihanteesta. Katsellessani ulkoisin käyttäjän silmin tiedon kattausta, on se runsasta, monipuolista ja monenlaisilla välineillä tuotettua. Hyvä tieto hukkuu linkkiviidakkoon tai linkkien hakuun.  http://ollintuumailut.blogspot.fi/2014/05/valtakunnallinen-sote-tieto-kroonisen.html

(7) Kansallinen palveluväylä-hanke etenee ja siitä raportoidaan säännöllisesti seminaareissa, KAPAn omilla sivuilla, LinkedInissä ja esuomi-sivustolla. https://esuomi.fi/viisi-pointtia/

(8) Tietoturva: Tietoturvauhkien hallintaan saattamisesta olen kirjoittanut aikaisemmissa blogikirjoituksissani, joista paras koonnos liittyy Kimmo Rouskun "Tietoturvaopas"-kirjan arvioon. Suosittelen läpimästi myös Kimmon kirjaa. http://ollintuumailut.blogspot.fi/2014/07/tietoturvauhat-hallintaan.html
- Niin kaikki uusi teknologia tiedon keruun ympärillä ei tuota pelkkää hyvää. Tässä on yksi poiminta ongelmista Englannin suunnalta:  "NHS-approved apps found 'leaking' ID data"
http://www.bbc.com/news/technology-34346806?utm_content=buffere83de&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

(9) Tietopolitiikka:
Mika Heleniuksen blogikirjoitus: "Tieto-omaisuuden kokonaisuuutta on johdettava ja omistettava strategisesti myös julkishallinnossa": "Kokonaisarkkitehtuurin lakisääteisyys on kansakunnan etu, jotta Suomi pääsee eroon ICT tuhlaamisesta ja takaisiin digitaalisen kilpailukyvyn johtavaksi kehittäjämaaksi, jossa osataan johtaa uuden luomista ja kehittämistä. Ongelmana muistion esittämässä toimintamallissa näen yhden näkökulman lyhyen tähtäimen hyötyjen liiallisen korostumisen pitkäjänteisen kokonaiskehittämisen sijaan. Kansallisena riskinä on, että ajaudumme takaisin kalliin maksajan rooliin johtajuuden ja ymmärryksen puuttuessa."
https://www.linkedin.com/pulse/tieto-omaisuuden-kokonaisuuutta-johdettava-ja-my%C3%B6s-mika-helenius?trk=prof-post

(10) Verottaja hyvä esimerkki: Veron harjoittamaa tietopolitiikkaa on kehuttu esimerkkinä meillä ja muualla. Kriittistäkin puhetta on verottajasta tietysti käytetty. Tässä esimerkki kriittisestä puheesta ja verottajan kommenteista:  http://veroblogit.com/2015/09/17/verottajan-chat-saastaa-verorahoja/

Ei kommentteja:

Lähetä kommentti