AI har allerede endret måten mange jobber på, men for å utnytte teknologien for å skape verdi i selskapet må man starte med fundamentet: data. For at bedriften din skal kunne lykkes med AI, må dataen være ren, strukturert og relevant. Uten en solid datastrategi risikerer du at AI-prosjektene mislykkes, og at ressursene dine sløses bort.
Enten det handler om å forbedre kundereisen, automatisere oppgaver eller generere innsiktsfulle analyser, er det en grunnleggende sannhet: Kvaliteten på resultatene AI leverer, avhenger helt av kvaliteten på dine data. “Garbage in, garbage out” gjelder i aller høyeste grad.
I dette blogginnlegget får du en innføring i hvordan du klargjør data for AI, hvilke datatyper som er nødvendige, og hvordan du kan sikre at din bedriftsdata er optimalisert for AI-verktøy.
Hvorfor er datakvalitet avgjørende for AI?
AI-modeller er avhengige av data for å trene, tilpasse og levere resultater. Data med høy kvalitet sikrer bedre analyser, mer nøyaktige forutsigelser og sterkere automatiseringsverktøy.
- Nøyaktighet: Data må være riktig og fri for feil.
- Konsistens: Data skal ha samme struktur og format i alle systemer.
- Kompletthet: Ingen kritiske datapunkter skal mangle.
- Relevans: Data må være relevant for oppgaven AI skal løse.
- Standardisering: Bruk samme formater for f.eks. dato og valuta.
- Oppdatering: Data må være fersk og oppdatert.
Uten disse elementene risikerer du at AI leverer ubrukelige eller til og med skadelige resultater.
Hva slags data trenger AI?
AI krever ulike typer data, avhengig av hva slags oppgaver den skal utføre. Generelt sett kan data kategoriseres som:
- Strukturert data: For eksempel kundedata fra CRM-systemer eller salgstall fra ERP-systemer.
- Ustrukturert data: Tekst, bilder, videoer og lyd, som ofte finnes i e-poster, sosiale medier og fritekstsvar.
- Halvstrukturert data: JSON-filer, XML og andre formater som har delvis organisert informasjon.
En annen ting det er verdt å tenke over her, er mengden data vi mater generativ AI med. Dette er viktig fordi AI har et såkalt kontekstvindu som fungerer litt som en menneskelig hjerne. Hvis du gir den for lite data, må den gjette og gjøre antakelser. Vi kan nesten tenke at den «hallusinerer». I den motsatte enden av skalaen, hvis du drukner AI i data, husker den ofte starten og slutten godt, men kan ende opp med å hallusinere eller «miste tråden» i midten.
Med andre ord er det viktig å gi AI all relevant informasjon for oppgaven, men samtidig minimere mengden så langt det lar seg gjøre for å sikre et godt resultat. Et tips for å løse dette på en effektiv måte, er å gi AI-verktøyene dine gode instrukser på når, hvordan og hva slags data den skal hente ut fra deres interne eller eksterne systemer.
Hvor finner du data som kan benyttes til AI?
Hvilke data du skal fore AI med avhenger av hva du ønsker å oppnå. Når målet er definert, gjelder det å kartlegge hvor datagrunnlaget finnes, om den er tilgjengelig, tilrettelagt og hvor god kvaliteten er nå og over tid. Vi anbefaler å begynne med data i de interne systemene før man benytter eksterne kilder. Her er noen eksempler:
- Interne systemer: CRM, ERP, CMS og andre verktøy hvor din organisasjon allerede lagrer informasjon.
- Offentlige data: For eksempel fra Brønnøysundregisteret eller Statistisk sentralbyrå (SSB).
- Webskraping: Henter data fra dataregister som er tilgjengelig via en nettside.
- Dataleverandører: Kilder som tilbyr strukturert data mot betaling.
- Crowdsourcing: Bidrag fra flere brukere, ofte brukt til å samle spesialisert data.
Hvordan klargjøre data for AI
For å unngå GIGO-problemet (Garbage In Garbage Out) er det avgjørende å sikre at all data som brukes i AI-systemer er nøyaktige, representative og av høy kvalitet. Her er noen punkter for å klargjøre og vedlikeholde data som skal benyttes:
1. Kartlegg data du allerede har
Før du begynner, er det viktig å forstå hvilke data du allerede har tilgang til, og hvilken kvalitet den har. Start med å stille spørsmål som:
- Hvor lagres data?
- Hvor ofte blir de oppdatert?
- Hvem er ansvarlig for datakvaliteten?
2. Identifiser datakvalitetsproblemer
Vanlige problemer inkluderer:
- Duplikater: Samme informasjon finnes flere steder.
- Manglende data: Kritiske felt er tomme.
- Inkonsekvent format: For eksempel ulike datoformater.
Bruk verktøy for datarensing for å identifisere og rette feil.
3. Rens og standardiser dataen
Rensing innebærer å fjerne feil, duplikater og irrelevante data. Standardisering handler om å bruke ensartede formater. For eksempel kan generativ AI brukes til å rydde opp i e-postadresser, organisasjonsnumre eller andre felt.
4. Integrer systemene dine
For å sikre at data flyter mellom ulike systemer, er det viktig med gode integrasjoner. En meldingsbasert plattform kan være et godt valg. Her sendes data som meldinger mellom systemer, slik at du unngår tette koblinger som er vanskelige å vedlikeholde.
5. Overvåk og vedlikehold data
Etter at data er klargjort og i bruk, er det viktig å etablere rutiner for overvåkning og vedlikehold. Dette innebærer å:
- Regelmessig kvalitetssikre data: Sett opp prosesser for å sjekke dataens nøyaktighet, konsistens og oppdatering.
- Automatisere validering: Bruk AI eller andre verktøy for å overvåke og validere dataen kontinuerlig.
- Fange opp avvik: Identifiser og flagg feil eller unøyaktigheter tidlig, slik at de kan rettes opp før de sprer seg i systemene.
- Gjennomføre opplæring: Sikre at de som jobber med data forstår hvordan de kan opprettholde høy datakvalitet gjennom gode rutiner.
Ved å innføre systemer og kontroll på datakvaliteten, sikrer du at AI-modellene dine har tilgang til best mulig data og kan fortsette å levere nøyaktige og verdifulle resultater. Dette er spesielt viktig i en verden hvor data stadig endres og oppdateres. Følger du disse stegene legger du grunnlaget for en vellykket bruk av AI i bedriften din. En solid datastrategi er ikke bare en investering i AI-prosjektene dine, men også i den fremtidige konkurranseevnen til bedriften din.
I dette webinaret kan du se meg og min kollega Thea Petrine prate mer om hvordan du kan klargjøre data for AI: