Osallistuin Databricks World Tour 2024 -kiertueen konferenssiin 24. lokakuuta Tukholman keskustan Filadelfia -konferenssikeskuksessa, jossa kokoontui yhteensä noin 1400 Databricksin kanssa työskentelevää asiantuntijaa eri puolilta pohjoismaita. Tapahtuma tarjosi kattavan katsauksen Databricksin uusimpiin innovaatioihin, keskittyen erityisesti datan hallintaan ja tekoälyn hyödyntämiseen.
Tapahtuma alkoi Keynote-esityksillä, jotka aloitti Databricksin Chief Operating Officer Hatim Shafique. Hän piti esityksen Databricksin uusista ominaisuuksista. Esitys kertoi Databricksin uusimmista työkaluista ja mahdollisuuksista, jotka auttavat käsittelemään dataa tehokkaammin sekä hyödyntämään tekoälyä liiketoiminnassa. Mukana oli esimerkiksi nopeampia ja joustavampia tapoja tallentaa ja jakaa dataa, tekoälyratkaisuja päätöksenteon tueksi sekä parempia työkaluja datan hallintaan ja seurantaan.
Kuva: Hatim Shafiquen Keynote
Seuraavaksi keynote-esityksen piti Lynne Bailey, Lead Data Strategist Databricksilta. Hän kuvasi yleistajuisesti keskusteluita, joita hän on käynyt asiakkaiden kanssa. Tällä hetkellä asiakkaiden datatarpeet voi kiteyttää kolmeen pääteemaan:
1) Kaikki haluavat tekoälyä
2) Tietoturvan ja tietosuojan varmistaminen on erityisen tärkeää ja samalla haastavaa
3) Data on pirstoutunutta ja siiloissa
Hän kertoi, että 85 % tekoälymalleista ei koskaan päädy käytännön sovelluksiin. Tärkeimmät esteet ovat laatu, kustannukset ja tietosuoja. Databricks pyrkii ratkaisemaan nämä haasteet tekemällä datasta helpommin käytettävää ja datan formaatit avoimemmaksi kaikille niin, että yhä useammat sovellukset voivat käyttää dataa sujuvasti. Tämä tehdään uuden Uniform-formaatin avulla, joka parantaa datan saavutettavuutta. Vaikka tämä matka on vielä kesken, on hienoa, että Databricks pyrkii mahdollisimman laajaan yhteistyöhön muiden tekijöiden kanssa ja haluaa yhdistää eri tietolähteet keskitettyyn paikkaan, jossa datan hallinta onnistuu parhaiten.
Kuva: Lynne Baileyn esitys kuvasi AI-mallien tuotantoon viennin haastavuutta
Kuva: Data on usein pirstaloitunutta
Kuva: Uniform on Databricksin deltaformaatit yhdistävä teknologia
Seuraavaksi puhui menestyksekkään tanskalaisen mutta samalla globaalin lääkealan yrityksen Novo Nordiskin Datasta ja Analytiikasta vastaava Vice President Sam Khalil.
Hän kertoi uudesta data-alustasta nimeltä FounData (”Patient Data Platform”) joka perustuu Azuren ja Databricksin teknologian pohjalle. Tämän alustan tarkoituksena on helpottaa datan löydettävyyttä. Hän kertoi neljästä kehityksen päämäärästä, jonka pohjalle alusta on tehty:
1) Datan helpompi löydettävyys
2) Saumaton ja automatisoitu pääsynhallinta dataan
3) Helppo liittyminen dataan eri työkaluilla
4) Ongelmien helpompi ratkaisu tekoälyn avulla
Tässäkin perustana on laadukas datan hallinta ja organisointi eli perusasiat on hyvä tehdä kuntoon ensin. Databricks Unity Catalog mahdollistaa selkeän ja keskitetyn analytiikkatietokannan rakenteen sekä taulu- ja sarakekohtaiset kuvaukset datan taulujen osalta.
Pääsynhallinnan osalta dataan tulee sallia vain tarkoituksenmukainen pääsy siksi aikaa, kun on tarpeellista. Novo Nordisk oli tehnyt käyttöliittymän, jonka kautta pääsy dataan oli mahdollista hakea, määritellä, perustella ja lopulta hyväksyä.
Datan hyödyntäminen onnistuu eri työkaluilla ja henkilödataa suojellaan samalla riittävällä tavalla – yksittäisten potilaiden tunnistaminen oli estetty käyttöliittymässä selkeästi.
Tekoälyavustaja avustaa Novo Nordiskin työntekijöitä monimutkaistenkin tutkimusongelmien kanssa, mutta he ovat huomioineet tarkasti datan luotettavuuden – tekoälyn hallusinaatiota tai vääriä vastauksia ei voida sallia tällaisessa lakisääteisestikin säädellyssä ratkaisussa.
Laadukkaasta datan hallinnasta olen kirjoittanut aiemmin täällä:
Kuva: Sam Khalil kertoi organisaation kipupisteistä, joiden ratkaisemiseen FounData on tehty
Myöhemmin iltapäivällä Novo Nordiskin infratiimi kertoi Azure-infrastruktuurista jolle FounData on rakennettu.
Alusta perustuu Data Mesh -periaatteeseen, joka mahdollistaa organisaation eri osien itsenäisen datan kehittämisen ja hyödyntämisen. Samalla varmistetaan keskitetty datanhallinta, jolloin laskentateho ja kustannukset pysyvät hallinnassa, ja data on helposti saatavilla itsepalveluna. Usein ei ole tehokasta tai edes mahdollista, että yksi keskusorganisaatio yrittää määritellä kaikkien osastojen datakehitystä.
Novo Nordiskilla on sekä Azure että AWS käytössä. Databricks ja Unity Catalog yhdistävät molempien pilviympäristöjen datalähteet sujuvasti saman datan hallintamallin alle.
Kuva: Novo Nordiskin datan määrä on kasvanut eksponentiaalisesti ja samalla enää 85 % datasta on tabulaarisessa muodossa
Kuva: Novo Nordiskin tavoitteet uudelle data-alustalle
Kuva: Data Mesh tarjoaa useita hyötyjä datan hallinnan osalta
Kuva: Novo Nordiskin alusta toimii ns. hub-and-spoke-periaatteella, jossa keskusorganisaatio tekee mallin mutta ei määrittele liikaa muiden organisaation osien puolesta
Näiden mielenkiintoisten esitysten lisäksi ruotsalainen kaivosalan Sandvik kertoi organisaatiostaan, jossa on 40000 työntekijää, yli 20 divisioonaa ja yli 40 datatiimiä. Tässä organisaatiossa tahot eivät halua olla keskusorganisaation määrättävissä vaan haluavat olla itsenäisiä päätöksissään. Myöskään mandaattia tai budjettia asioiden keskittämiselle ei ole annettu.
Tällaisessa tapauksessa paras lähtökohta on se, että data tehdään keskitetyn Unity Catalogin kautta saataville ilman turhaa keskittämistä. Sama ratkaisu voi yhdistää useita Landing Zoneja ja julkipilviä.
Tanskan valtion omistaman rahapelaamisen yrityksen Danske Spilin Data Engineering Lead Søren Klein kertoi neljästä vuodesta Databricksin kanssa. He olivat hankinnan yhteydessä testanneet eri data-alustatuotteita, ja kehittäjät olivat olleet selkeästi Databricksin kannalla.
Tämä on minusta erinomainen lähtökohta ja tärkeä peruste pitkäjänteiselle data-alustan kehitystyölle – jos datan kehittäjät eivät ole alusta pitäen data-alustatuotteen puolella ja pidä työskentelystä sen parissa, voi olla turha odottaa kehittämisen motivaation olevan korkealla pitkällä tähtäimellä. Søren kertoi myös kustannusten seurannan helppoudesta, jota tehdään kvartaaleittain Databricks-tietokannan systeemitaulujen kautta.
Norjalaisen vakuutusyhtiön Gjensidigen Head of AI and MLOps Alexandra Diem kertoi AI-avustajastaan, joka perustuu Generative AI / LLM-teknologialle. Avustajaa, jonka nimi on Eglev käytetään generoimaan SQL-koodia ja tämän kautta vastauksia datasta. Tätä avustajaa voidaan reaaliajassa monitoroida ja laatua valvoa.
Tärkein anti tämäntyyppisistä seminaareista ovat mielestäni aina erilaiset ja mielenkiintoiset asiakastarinat. On hyödyllistä inspiroitua ja sparrata omaa ja oman yrityksensä tekemistä hyvinkin erilaisten asiakastapausten kautta. Seminaari vahvisti kuvaani siitä, kuinka tärkeää on huolehtia datan hallinnan perusteista ennen hienompien AI-ratkaisuiden kehittämistä – datakehittäminen lähtee ikään kuin alhaalta ylöspäin.
Myös laadunvarmistus tulee varmasti nousemaan tärkeysjärjestyksessä – perusperiaate on se, että mikäli kirjoitat vähänkään koodia, on tähän yhteyteen hyvä kirjoittaa testit. Datan ja AI-mallien laadunvarmistus ja testaus noudattavat tätä samaa periaatetta.
Kirjoittaja: Tero Tuominen, Senior Data Engineer