Skip to content

Tekoälyratkaisujen menestys lähtee datan hallinnan perusteista – oppeja Databricks World Tourilta

Osallistuin Databricks World Tour 2024 -kiertueen konferenssiin 24. lokakuuta Tukholman keskustan Filadelfia -konferenssikeskuksessa, jossa kokoontui yhteensä noin 1400 Databricksin kanssa työskentelevää asiantuntijaa eri puolilta pohjoismaita. Tapahtuma tarjosi kattavan katsauksen Databricksin uusimpiin innovaatioihin, keskittyen erityisesti datan hallintaan ja tekoälyn hyödyntämiseen. 

Keynote-esitykset

Tapahtuma alkoi Keynote-esityksillä, jotka aloitti Databricksin Chief Operating Officer Hatim Shafique. Hän piti esityksen Databricksin uusista ominaisuuksista. Esitys kertoi Databricksin uusimmista työkaluista ja mahdollisuuksista, jotka auttavat käsittelemään dataa tehokkaammin sekä hyödyntämään tekoälyä liiketoiminnassa. Mukana oli esimerkiksi nopeampia ja joustavampia tapoja tallentaa ja jakaa dataa, tekoälyratkaisuja päätöksenteon tueksi sekä parempia työkaluja datan hallintaan ja seurantaan.

Hatim Shafiquen Keynote

Kuva: Hatim Shafiquen Keynote

Seuraavaksi keynote-esityksen piti Lynne Bailey, Lead Data Strategist Databricksilta. Hän kuvasi yleistajuisesti keskusteluita, joita hän on käynyt asiakkaiden kanssa. Tällä hetkellä asiakkaiden datatarpeet voi kiteyttää kolmeen pääteemaan: 

1) Kaikki haluavat tekoälyä 
2) Tietoturvan ja tietosuojan varmistaminen on erityisen tärkeää ja samalla haastavaa 
3) Data on pirstoutunutta ja siiloissa

Hän kertoi, että 85 % tekoälymalleista ei koskaan päädy käytännön sovelluksiin. Tärkeimmät esteet ovat laatu, kustannukset ja tietosuoja. Databricks pyrkii ratkaisemaan nämä haasteet tekemällä datasta helpommin käytettävää ja datan formaatit avoimemmaksi kaikille niin, että yhä useammat sovellukset voivat käyttää dataa sujuvasti. Tämä tehdään uuden Uniform-formaatin avulla, joka parantaa datan saavutettavuutta. Vaikka tämä matka on vielä kesken, on hienoa, että Databricks pyrkii mahdollisimman laajaan yhteistyöhön muiden tekijöiden kanssa ja haluaa yhdistää eri tietolähteet keskitettyyn paikkaan, jossa datan hallinta onnistuu parhaiten.

Lynne Bailey KeynoteKuva: Lynne Bailey kuvasi datan kehittämisen ongelmia

Lynne Baileyn esitys

Kuva: Lynne Baileyn esitys kuvasi AI-mallien tuotantoon viennin haastavuutta

Data_estate

Kuva: Data on usein pirstaloitunutta

Delta_late_uniform

Kuva: Uniform on Databricksin deltaformaatit yhdistävä teknologia

Asiakascase: Novo Nordiskin FounData-alusta

Seuraavaksi puhui menestyksekkään tanskalaisen mutta samalla globaalin lääkealan yrityksen Novo Nordiskin Datasta ja Analytiikasta vastaava Vice President Sam Khalil.

Hän kertoi uudesta data-alustasta nimeltä FounData (”Patient Data Platform”) joka perustuu Azuren ja Databricksin teknologian pohjalle. Tämän alustan tarkoituksena on helpottaa datan löydettävyyttä. Hän kertoi neljästä kehityksen päämäärästä, jonka pohjalle alusta on tehty:

1) Datan helpompi löydettävyys
2) Saumaton ja automatisoitu pääsynhallinta dataan
3) Helppo liittyminen dataan eri työkaluilla
4) Ongelmien helpompi ratkaisu tekoälyn avulla

Tässäkin perustana on laadukas datan hallinta ja organisointi eli perusasiat on hyvä tehdä kuntoon ensin. Databricks Unity Catalog mahdollistaa selkeän ja keskitetyn analytiikkatietokannan rakenteen sekä taulu- ja sarakekohtaiset kuvaukset datan taulujen osalta.

Pääsynhallinnan osalta dataan tulee sallia vain tarkoituksenmukainen pääsy siksi aikaa, kun on tarpeellista. Novo Nordisk oli tehnyt käyttöliittymän, jonka kautta pääsy dataan oli mahdollista hakea, määritellä, perustella ja lopulta hyväksyä.

Datan hyödyntäminen onnistuu eri työkaluilla ja henkilödataa suojellaan samalla riittävällä tavalla – yksittäisten potilaiden tunnistaminen oli estetty käyttöliittymässä selkeästi.

Tekoälyavustaja avustaa Novo Nordiskin työntekijöitä monimutkaistenkin tutkimusongelmien kanssa, mutta he ovat huomioineet tarkasti datan luotettavuuden – tekoälyn hallusinaatiota tai vääriä vastauksia ei voida sallia tällaisessa lakisääteisestikin säädellyssä ratkaisussa.

Laadukkaasta datan hallinnasta olen kirjoittanut aiemmin täällä:

FounData

Kuva: Sam Khalil kertoi organisaation kipupisteistä, joiden ratkaisemiseen FounData on tehty

Myöhemmin iltapäivällä Novo Nordiskin infratiimi kertoi Azure-infrastruktuurista jolle FounData on rakennettu.

Alusta perustuu Data Mesh -periaatteeseen, joka mahdollistaa organisaation eri osien itsenäisen datan kehittämisen ja hyödyntämisen. Samalla varmistetaan keskitetty datanhallinta, jolloin laskentateho ja kustannukset pysyvät hallinnassa, ja data on helposti saatavilla itsepalveluna. Usein ei ole tehokasta tai edes mahdollista, että yksi keskusorganisaatio yrittää määritellä kaikkien osastojen datakehitystä.

Novo Nordiskilla on sekä Azure että AWS käytössä. Databricks ja Unity Catalog yhdistävät molempien pilviympäristöjen datalähteet sujuvasti saman datan hallintamallin alle.

Data_in_development

Kuva: Novo Nordiskin datan määrä on kasvanut eksponentiaalisesti ja samalla enää 85 % datasta on tabulaarisessa muodossa

Gap_analysis

Kuva: Novo Nordiskin tavoitteet uudelle data-alustalle

Approach

Kuva: Data Mesh tarjoaa useita hyötyjä datan hallinnan osalta

Our_platform

Kuva: Novo Nordiskin alusta toimii ns. hub-and-spoke-periaatteella, jossa keskusorganisaatio tekee mallin mutta ei määrittele liikaa muiden organisaation osien puolesta

Sandvikin data-alustan ratkaisut

Näiden mielenkiintoisten esitysten lisäksi ruotsalainen kaivosalan Sandvik kertoi organisaatiostaan, jossa on 40000 työntekijää, yli 20 divisioonaa ja yli 40 datatiimiä. Tässä organisaatiossa tahot eivät halua olla keskusorganisaation määrättävissä vaan haluavat olla itsenäisiä päätöksissään. Myöskään mandaattia tai budjettia asioiden keskittämiselle ei ole annettu.

Tällaisessa tapauksessa paras lähtökohta on se, että data tehdään keskitetyn Unity Catalogin kautta saataville ilman turhaa keskittämistä. Sama ratkaisu voi yhdistää useita Landing Zoneja ja julkipilviä.

Kehittäjäkokemus ja motivaatio: Danske Spil

Tanskan valtion omistaman rahapelaamisen yrityksen Danske Spilin Data Engineering Lead Søren Klein kertoi neljästä vuodesta Databricksin kanssa. He olivat hankinnan yhteydessä testanneet eri data-alustatuotteita, ja kehittäjät olivat olleet selkeästi Databricksin kannalla.

Tämä on minusta erinomainen lähtökohta ja tärkeä peruste pitkäjänteiselle data-alustan kehitystyölle – jos datan kehittäjät eivät ole alusta pitäen data-alustatuotteen puolella ja pidä työskentelystä sen parissa, voi olla turha odottaa kehittämisen motivaation olevan korkealla pitkällä tähtäimellä. Søren kertoi myös kustannusten seurannan helppoudesta, jota tehdään kvartaaleittain Databricks-tietokannan systeemitaulujen kautta.

Generatiivinen AI ja laadunvarmistus: Gjensidigen AI-avustaja

Norjalaisen vakuutusyhtiön Gjensidigen Head of AI and MLOps Alexandra Diem kertoi AI-avustajastaan, joka perustuu Generative AI / LLM-teknologialle. Avustajaa, jonka nimi on Eglev käytetään generoimaan SQL-koodia ja tämän kautta vastauksia datasta. Tätä avustajaa voidaan reaaliajassa monitoroida ja laatua valvoa.

Yhteenveto: datan hallinnan perusteet kuntoon ennen laajoja tekoälyratkaisuja

Tärkein anti tämäntyyppisistä seminaareista ovat mielestäni aina erilaiset ja mielenkiintoiset asiakastarinat. On hyödyllistä inspiroitua ja sparrata omaa ja oman yrityksensä tekemistä hyvinkin erilaisten asiakastapausten kautta. Seminaari vahvisti kuvaani siitä, kuinka tärkeää on huolehtia datan hallinnan perusteista ennen hienompien AI-ratkaisuiden kehittämistä – datakehittäminen lähtee ikään kuin alhaalta ylöspäin.

Myös laadunvarmistus tulee varmasti nousemaan tärkeysjärjestyksessä – perusperiaate on se, että mikäli kirjoitat vähänkään koodia, on tähän yhteyteen hyvä kirjoittaa testit. Datan ja AI-mallien laadunvarmistus ja testaus noudattavat tätä samaa periaatetta.

Kirjoittaja: Tero Tuominen, Senior Data Engineer