Mutkainen tie datavarastoon (Viite 1) |
Dataintegraatiota tyhmille |
Datapolitiikka ei vain avointa tiedettä. Datapolitiikka THL:n ajattelussa sisältää kuitenkin kaiken datan - siis myös erilaiset tilastot, rekisterit ja indikaattoripankit. Tämä on hieno avaus laajempiin tietovarastoihin. Datapolitiikan ajatuksellinen ydin on avoimessa tieteessä, ei avoimessa datan-informaation-tiedon hyödyntämisessä kaikkiin tarkoituksiin - myös toiminnan ohjaukseen ja päätöksentekoon. Suora kopiointi avoimen tieteen maailmasta ei siis riitä. Datapolitiikassa on laajemmin kyse datan hyödyntämisestä (liike)toiminnassa. Näin tutkimusnäkökulma ei ole ainoa näkökulma datapolitiikassa. Datan hyödyntämisessä toiminnassa on mahdollistettava erilaisten datojen integraatio. (3) Julkaisu "Data Intergration for Dummies" (4) antaa keskeiset viiisi vaatimusta datalle: 1) datan moninaisuus (variety), 2) datan määrä (volume), 3) nopeus (velocity), 4) datan totuudenmukaisuus (veracity), 5) datan arvo (value).
Variety (datan moninaisuus). Toiminnan ohjaamiseen tarvitaan kaikki relevantti data, vaikka eri datat eivät välttämättä ole alkutilanteessa yhteensopivia. Metadata-analyysin avulla voidaan hakea tietyt ydintiedot, joiden avulla voidaan eri datalähteet saada jollain tapaa yhteismitallisiksi. Tässä THL:n tapauksessa periaatteessa kaikki tutkimus- ja rekisteridata on saatavissa samalle "viivalle", koska ne ovat strukturoitua dataa. Kanta- ja tuleva Kansa-tietovarannot sisältävät myös strukturoimatonta dataa, joihin tarvitaan erityisiä analyysityökaluja ja /tai rinnakkaista tietovarastoratkaisua.
Volume (datan määrä). Datan määrän huomioon ottaminen on tietovarastoasia ja palvelininfran kapasiteettiasia. Varmista, että datan integroinnin välineet ovat helposti skaalattavissa datan määrän kasvaessa. Näin tässä tyhmien ohjeessa kerrotaan. Jotta data voidaan saada uudella tapaa hyödynnettyä, on tehtävä paljon erikseen olevien datavarastojen yhdistämistyötä. Tämä liittyy myös nyt muodissa oleviin käsitteisiin "masterdata" ja "big data". Oheinen kuvio valaiseen datan uudelleen varastoinnin haastetta. (5)
Velocity (datan nopeus). Toiminnan ohjauksessa keskeistä on datan ajankohtaisuus eli nopeus saada se prosessoitua käyttäjien tarpeisiin. Tässä vaatimuksessa on eroja erilaisten käyttötarkoitusten kesken. Tutkimustoiminnassa nopeus ei ole samalla tapaa keskeinen tekijä. Sotemaailmassa tarvitaan panostusta datan nopeuteen. Kun soteuudistusta pistetään käytäntöön, pitää saada aikaan mahdollisimman reaaliaikainen kattava toiminnanohjausjärjestelmä. Tähän ei riitä vallalla oleva hidas rekisteripohjainen tiedon keruusysteemi, jossa tietoja päästään hyödyntämään vasta seuraavana vuonna tai jopa ylivuotisesti. (6).
Kansallinen palveluväylä (KAPA, viite 7) |
Value (datan arvo). On aina tiedettävä, mihin tarkoitukseen dataa halutaan käyttää. Mikä on datan arvo osana päätöksentekoa tai uusien mahdollisuuksien avaamista? Toisaalta tänä bigdata-aikakautena halutaan myös korostaa sitä, että kannattaa kerätä dataa mahdollisia tulevaisuuden tarpeita varten. Olen kuitenkin datan loppukäyttäjänä tarkka siitä, mihin tarkoitukseen tuota dataa käytetään. Tässä "Dummy"-kirjasessa ei nosteta kovin korkealle datan väärinkäytön mahdollisuuksia. Yksilön tietoturva on keskeinen läpimenevä periaate, joka nostetaan myös osaksi kokonaisarkkitehtuuria (toiminta - tieto - tietojärjestelmä - teknologia - tietoturva). Siis kuka ja miten saa käyttää dataa? (8)
Datapolitiikasta tietopolitiikkaan. Datapolitiikan sijasta pitäisi puhua tietopolitiikasta, joka siis käsittää datan, informaation, tiedon ja tietämyksen kokonaisuuden. Tietopolitiikka koskee sekä tieteessä syntyvää tietoa että toiminnassa syntyvää tietoa. Dataa on jalostettava yllä esitettyjen jalojen periaatteiden avulla. Koko tiedonhallinnan prosessin on nojauduttava kokonaisarkkitehtuuriin ja siinä julistettuihin periaatteisiin. Tietoturva on sisään leivottava tietopolitiikan kokonaisuuteen. Lainsäädäntö on rakennettava tukemaan viisasta tietopolitiikkaa. Niin tieto-omaisuutta on kehitettävä ja hallittava strategisesti. (9). Verottajan työtä kannattaa pitää hyvänä esimerkkinä tuon viranomaisen harjoittamasta tietopolitiikasta. Tuloksia on syntynyt meille kaikille. (10).
Päivitys 17.10.2015: Sain nopeasti FB:n kautta kommentin käsitteeseen "datapolitiikka". Hienoa. Sitä kaipasinkin. Datapolitiikka on THL:n ja myös Helsingin Yliopiston käyttämä termi. Toinen termi on dataintegraatio, joka on peräisin Wikipediasta. Kumpaakin termiä Sami kommentoi kriittisesti. Siteeraamassani monisteessa " Data Integration for Dummies" ei ole lyhyesti määritelty tätä dataintegraatiota. Tässä kommentti:
Sami Kristian Laine Tuo datapolitiikka ei ole minusta hyvä suomennos tuolle käsitteelle.
"Huomioiden nuo organisaatiot ja linkit, joita käytät, niin kyseessä on ehkä "data policy" ja sitä kuvaisi paremminkin "tiedonhallinnan toimintamalli" tai "tiedonhallinnan käytännöt". Minusta kyseessä ei ole "data politics". Tähän "data policy" aihepiiriin linkittyy mm. rekisteriselosteet, arkistointisuunnitelmat, tietoturvaselosteet ja vastaavat tarkemmin rajatut ja perinteiset toimintatavat.Olen seurannut näitä aika kauan sekä tieteen että terveydenhuollon näkökulmasta. Mukana myös kommentoijana tai aktivistina. Näiden kansallisten hankkeiden kautta kaikki (lähes) yliopistot ovat joutuneet aktivoitumaan asiassa ja mm. THL on herännyt tähän tarpeeseen. Tähän liittyy laajempikin datan avaamisen kehittäminen valtakunnallisesti ja eri puolilla julkishallintoa.Suomessa ollaan vielä aika alussa tässä kokonaisvaltaisessa hallinnoinnissa ja ennen kaikkea sen käytännön tukemisessa. Toiminta on vielä hyvin pitkälle historiallisia rekisteriseloste-, arkistointi-käytäntöjä, jotka on rakennettu tietoa tuottavan yksikön näkökulmasta. Ei asiakkaille tai tiedon hyödyntäjille. LISÄYS: Mikä olisi tuolle hyvä suomennos - en oikein itsekään tiedä mikä se olisi. Toimintamalli on hiukan liian laaja ja toimintaan liittyvä, kun data policylla viitataan usein hallinnoinnin tavoitelinjauksiin. Politiikka ei oikein minun mielestäni sovi myöskään tähän, mutta toki se on vain oma näkemys...PS. Kannattaa välttää noita wikipedia-viitteitä. Ne on tiedonhallinnan osalta usein varsinaista kuraa varsinkin suomenkielellä, mutta usein myös englanniksi. Valitettavasti. Esim. tuo linkittämäsi dataintegraatio on tosi kujalla olevaa tekstiä... Ei ole selvästikään aihepiirin tuntevan henkilön tekemää tekstiä."
Päivitys 20.10.2015: THL avoimen datan ideoiden perässä
Terveyden ja hyvinvoinnin laitos (THL) kerää ideoita laajojen terveysaiheisten aineistojen käyttöön.
– Etsimme esimerkiksi sovelluksia joilla voi vertailla liikkumista, ravitsemusta ja muita elintapoja parhaiden vaihtoehtojen löytämiseksi. Olemme myös kiinnostuneet sovelluksista, joilla voisi vertailla julkishallinnon toimintatapoja, tiedote kertoo.
http://www.mediuutiset.fi/uutisarkisto/terveyden+ja+hyvinvoinnin+laitos+keraa+avoimen+datan+kayttoideoita/a1070787
https://www.thl.fi/fi/-/mihin-kayttaisit-thl-n-avointa-dataa-
Viitteet
(1) Data Repository = datan säilytyspaikka, varasto. Tämäkin käsite on määritelty ja sen ympärillä on omat nettisivunsa: "Data repository is a somewhat general term used to refer to a destination designated for data storage. However, many IT experts use the term more specifically to refer to a particular kind of setup within an overall IT structure, such as a group of databases, where an enterprise or organization has chosen to keep various kinds of data."
https://www.techopedia.com/definition/23341/data-repository
(2) Avoin tiede: Kyse on julkaisujen ja tutkimusaineistojen avoimesta saatavuudesta (kuten avoin lähdekoodi) ja menettelytapojen vaikuttavuuden mittaamisesta. Tiedeyhteisö ympäri maailmaa pyrkii edistämään avointa tiedettä. Moni tutkimusten ja julkaisujen hyväksikäyttäjä tuntee kuitenkin ongelmat eli hyvä viite voi pysähtyä etsinnässä maksuautomaattiin ja näin jäädä siinä akuutissa tilanteessa hyödyntämättä. Wikipediassa asiaa on käsitelty kattavasti. Samoin "avoin tiede" -kotisivuilla on linkit kaikkiin ajankohtaisiin suomalaisiin aktiviteetteihin. THL:n ylläpitämä "Julkari" pitää sisällään sotemaailman tutkimuksia vapaasti luettavissa ja haettavissa.
- https://fi.wikipedia.org/wiki/Avoin_tiede
- https://en.wikipedia.org/wiki/Open_science
- http://avointiede.fi/home
- https://www.julkari.fi/
- Helsingin yliopistolla on jo vuonna 2011 julkistettu työryhmän mietintö datapolitiikasta: http://hdl.handle.net/10138/2845
(3) "Dataintegraatiolla tarkoitetaan tiedon muuntamista ja kuljettamista tietojärjestelmästä toiseen. Tietoelementit voivat sijaita useammassa kuin yhdessä erillisessä järjestelmässä. Tyypillisesti dataintegraatio ajatellaan useamman lähdeaineiston tietokuvauksen muuntamisena yhteen yhdenmukaistettuun muotoon, jota tiedon tarvitsijat käyttävät. Lähde- ja kohdeaineistot kuvataan nykypäivänä tyypillisesti skeemoin ja niiden välistä muunnosta kuvataan nykypäivänä usein XSL-muunnoksella. Dataintegraatio ei kuitenkaan millään lailla rajoitu XML-teknologioiden käyttöön." https://fi.wikipedia.org/wiki/Dataintegraatio
Brian Underdahl (viite 4) määrittelee laajasti dataintegraation, mutta ei anna yksikäsitteistä määritelmää. On ymmärrettävä, mitä datalla tarkoitetaan (strukturoitua, semistrukturoitua tai strukturoimatonta dataa; sensoridataa). Dataan liittyy metadata. Siihen littyy myös big data. Kysymys on datan integrointiprosessista, jossa integroinnin välineenä voidaan käyttää pilvipalveluita tai paikallisia palveluita tai hybridisti molempia. Datan integrointi edellyttää erilaisten välineiden käyttöä, kuten mappaus, yhteiset termit ja käsitteet, datan laadun periaatteet.
(4) Brian Underdahl: Data Intergration for Dummies, John Wiley & Sons 2014 (Informatica Special Publication)
(5) Big data ja masterdata: Big datan ja masterdatan suhdetta ja merkitystä kuvaa hyvin Tero Laatikaisen blogikirjoitus "Master Data on monisyistä, monista syistä". Laatikainen toteaa mm. seuraavaa: " Master Data on ennen kaikkea liiketoimintakriittistä tietoa. Kaikki toiminnot hyödyntävät jotain Master Dataa prosesseissaan. Master Dataa tarvitaan strategisessa suunnittelussa, taktisessa johtamisessa ja jokapäiväisessä operatiivisessa toiminnassa. Arkkitehtuurin näkökulmasta Master Data kytkeytyy edellisten tueksi tietovarastoihin sekä operatiivisiin järjestelmiin."
http://www.arihovi.com/master-data-blogi/
(6) Datan nopeus: Tätä asiaa pohdiskelin taannoin blogikirjoituksessani (toukokuu 2014), jossa päädyin hiukan masentaviin lopputuloksiin: Työpöytä puuttuu. Soteuudistus edellyttäisi kattavaa tiedonhallintaa sotealueittain, palvelujen tuottajittain ja aina operatiiviselle tasolle saakka. Myös valtakunnallinen suunnittelu, ohjaus ja valvonta edellyttäisivät yhteensopivaa tiedonhallintaa ja lopputuoteratkaisu - työpöytää. Tarvittaisiin vielä ennustavuutta, riskien esiin nostavaa tiedonhallintaa jne. Eli kaukana ollaan vielä ihanteesta. Katsellessani ulkoisin käyttäjän silmin tiedon kattausta, on se runsasta, monipuolista ja monenlaisilla välineillä tuotettua. Hyvä tieto hukkuu linkkiviidakkoon tai linkkien hakuun. http://ollintuumailut.blogspot.fi/2014/05/valtakunnallinen-sote-tieto-kroonisen.html
(7) Kansallinen palveluväylä-hanke etenee ja siitä raportoidaan säännöllisesti seminaareissa, KAPAn omilla sivuilla, LinkedInissä ja esuomi-sivustolla. https://esuomi.fi/viisi-pointtia/
(8) Tietoturva: Tietoturvauhkien hallintaan saattamisesta olen kirjoittanut aikaisemmissa blogikirjoituksissani, joista paras koonnos liittyy Kimmo Rouskun "Tietoturvaopas"-kirjan arvioon. Suosittelen läpimästi myös Kimmon kirjaa. http://ollintuumailut.blogspot.fi/2014/07/tietoturvauhat-hallintaan.html
- Niin kaikki uusi teknologia tiedon keruun ympärillä ei tuota pelkkää hyvää. Tässä on yksi poiminta ongelmista Englannin suunnalta: "NHS-approved apps found 'leaking' ID data"
http://www.bbc.com/news/technology-34346806?utm_content=buffere83de&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
(9) Tietopolitiikka:
Mika Heleniuksen blogikirjoitus: "Tieto-omaisuuden kokonaisuuutta on johdettava ja omistettava strategisesti myös julkishallinnossa": "Kokonaisarkkitehtuurin lakisääteisyys on kansakunnan etu, jotta Suomi pääsee eroon ICT tuhlaamisesta ja takaisiin digitaalisen kilpailukyvyn johtavaksi kehittäjämaaksi, jossa osataan johtaa uuden luomista ja kehittämistä. Ongelmana muistion esittämässä toimintamallissa näen yhden näkökulman lyhyen tähtäimen hyötyjen liiallisen korostumisen pitkäjänteisen kokonaiskehittämisen sijaan. Kansallisena riskinä on, että ajaudumme takaisin kalliin maksajan rooliin johtajuuden ja ymmärryksen puuttuessa."
https://www.linkedin.com/pulse/tieto-omaisuuden-kokonaisuuutta-johdettava-ja-my%C3%B6s-mika-helenius?trk=prof-post
(10) Verottaja hyvä esimerkki: Veron harjoittamaa tietopolitiikkaa on kehuttu esimerkkinä meillä ja muualla. Kriittistäkin puhetta on verottajasta tietysti käytetty. Tässä esimerkki kriittisestä puheesta ja verottajan kommenteista: http://veroblogit.com/2015/09/17/verottajan-chat-saastaa-verorahoja/
Ei kommentteja:
Lähetä kommentti