Virksomheder opsamler dagligt milliarder af datapunkter fra sensorer, maskiner og systemer og dermed vokser risikoen for at træffe beslutninger på usikkert grundlag. For som man siger i data-verdenen: Garbage in, garbage out. Dårlige data giver dårlige resultater – og det kan koste dyrt.

Det var Danfoss bevidste om, da de bad FORCE Technology vurdere kvaliteten af data fra en testrig i afdelingen Controls and Thermal Management (CTM). Det var en god idé, for datakvaliteten levede ikke op til forventningerne, og systemet havde i årevis skjult mindre fejl i testdata.

Systemet skjulte fejl

Projektet var en del af en større digitaliseringsindsats på tværs af Danfoss’ globale testcentre. Det blev ledet af Daniel Frederik Busemann (daværende Senior Engineer Process Automation) og havde blandt andet til formål at optimere datahåndteringen, som ofte foregik manuelt.

FORCE Technology analyserede datakvaliteten fra en testrig, som kan teste fire ventiler i en serie. Den indgår i en simulering af et køleanlæg i et mellemstort til meget stort supermarked. 

Rør og ventiler
Analyse afslørede skjulte fejl i testdata fra ventilsystem, hvilket fik Danfoss til at ændre arbejdsgange. 

Analysen afslørede, at systemet begyndte at miste datapunkter efter 24 timer, hvilket tidligere havde været skjult. Fejlen blev ikke opdaget, da det gamle system autoudfyldte de manglende værdier med den senest indsamlede måling. De fleste af Danfoss’ hidtidige tests var dog kortere end 24 timer og derfor ikke påvirket af fejlen.

”Vi vidste, at vi ikke var sikre på datakvaliteten, men vi havde aldrig før kigget på vores data på den måde og set, at der faktisk lå fejl i data fra hele perioden,” siger Daniel Frederik Busemann.

Ændringer i arbejdsgange

Efter projektet ændrede Danfoss praksis. Testforløb overstiger nu aldrig 24 timer, og udstyr med høj fejlrisiko er blevet prioriteret til udskiftning. Det er nødvendigt, da noget af testudstyret er ældre og dyrt at erstatte.

”I værste fald kan mangelfulde testdata betyde, at vi drager de forkerte konklusioner. Og det bliver jo så et kvalitetsproblem,” siger Daniel Frederik Busemann.

Fejlbehæftet data kan også føre til fejl i blandt andet AI-modeller, som trænes på netop disse data. Det skaber en kædereaktion, hvor én fejl forplanter sig gennem hele systemet.

FORCE Technology som procespartner

Projektet forløb over nogle måneder og startede med et indledende møde. Kort efter besøgte FORCE Technology testfaciliteten i Nordborg og mødte de eksperter, som arbejder med testudstyret til daglig.

”Det var rigtig vigtigt at have de fysiske dage, hvor vi kunne aflevere vores viden og data, som FORCE Technology kunne arbejde på hjemme. Vores eksperter følte sig som en vigtig del af processen,” siger Daniel Frederik Busemann.

Samarbejdet blev styrket af, at FORCE Technology oversatte tekniske begreber, så både dataspecialister og maskiningeniører kunne tale samme sprog. Danfoss’ eksperter bidrog med den domæneviden, der var nødvendig for at vurdere datakvaliteten.

Valideringsregler for data

Selvom Danfoss er en global virksomhed med ca. 40.000 ansatte, er der ikke dataspecialister tilknyttet alle testfaciliteter. Derfor var det afgørende at få ekstern hjælp:

“Vi ville ikke have haft ressourcer til at gøre det her selv. Det var meget nemmere at tage fat i en ekstern partner, fremfor at vente på vores egne data analytics folk,” siger Daniel Frederik Busemann.

FORCE Technology leverede ikke en færdig softwareløsning, men en metode og værktøjer, herunder valideringsregler og kode, som Danfoss kan integrere i egne systemer. En valideringsregel kan for eksempel være, at testen automatisk stopper, hvis der mangler mere end 10% af data.

Måleudstyr
Danfoss’ data blev vurderet ved hjælp af et rammeværk i to faser: først systemanalyse, dernæst udvikling og implementering af datavalideringsregler.

Reglerne blev udviklet i Jupyter Notebooks og visualiseret i Grafana. Det er open source-værktøjer, som gør løsningen skalerbar og tilgængelig, også efter projektets afslutning. Visualiseringerne gjorde det muligt at se, hvordan datakvaliteten faldt markant efter 24 timer, hvilket ikke var synligt i de eksisterende grafer.

Sådan arbejder man systematisk med datakvalitet

Metoden, som FORCE Technology anvendte, er baseret på internationale standarder som ISO 8000-61. Den følger et standardiseret rammeværk med syv trin opdelt i to faser: Først analyseres system og dataarkitektur, derefter udvikles og implementeres datavalideringsregler.

Michael Vaa er Head of IoT Architecture & Technology, Digital and Sustainable Innovation i FORCE Technology, som er den afdeling, der håndterede projektet. Han understreger metodens brede anvendelighed:

”Det er et spørgsmål om at lave nogle processer, som kunder og virksomheder kan implementere, så det bliver en fast del af deres dagligdag, at de løbende kontrollerer data på en systematisk måde.”

Undervejs vurderes data ud fra seks dimensioner: Completeness, Correctness, Timeliness, Uniqueness, Reusability og Validity.

Datakvalitet i en IoT-verden

I år forventes det, at der findes 75 mia. IoT-enheder i verden, men kun 1% af data fra dem vil blive brugt. Blandt andet fordi kvaliteten ikke er høj nok.

“Når du kigger på anvendelsen af AI og machine learning, som kan være virkeligt kraftfulde værktøjer, så skal du tænke: hvad er det for noget data, du putter ind i algoritmerne?” siger Michael Vaa.

Hos Danfoss var man bekendt med usikkerhed på måleudstyr, sensorer og prototyper, men ikke alle var bevidste om, at selve dataoverførslen kan være fejlbehæftet.

”Dårlig datakvalitet er en barriere for at udnytte potentialet i AI og digitalisering. Når man taler om dataøkonomien, hvor data er en handelsvare, vil man også gerne sikre sig, at de har den fornødne kvalitet,” siger Michael Vaa.

Læring og næste skridt

Daniel Frederik Busemann har brugt resultaterne til at søge støtte til en root cause-analyse af testudstyret og til at prioritere opgradering af udstyr.

På sigt skal valideringsreglerne gerne implementeres i et dashboard, så eksperterne kan overvåge datakvalitet i realtid.

“Min drøm er, at vores database kun fyldes med data, som er valideret,” siger Daniel Frederik Busemann.

Test setup
Visualiseringer af datakvaliteten i open source-værktøjer gjorde det muligt se, hvordan datakvaliteten faldt markant efter 24 timer. 

Fordi FORCE Technology bruger open source-værktøjer, kan metoden også bruges af mindre virksomheder uden store IT-budgetter. Men det kræver, at de prioriterer datavalidering.

”Kvalitetssikring af data giver dig måske ikke en bundlinje-effekt lige nu, men sørger for, at du ikke mister penge senere. Det er en uundværelig del af kvalitets- og risikostyring i datadrevne virksomheder og organisationer. En produktionschef forventer i udgangspunktet, at der ikke er noget galt med data fra ofte dyrt indkøbte maskiner, sensorer og softwareløsninger. Det er først, hvis der kommer klager, at man begynder at undersøge det,” siger Michael Vaa.

Han foreslår, at man i fremtiden udvikler et kvalitetsmærke for data, ligesom vi i dag har mærkningsordninger for fødevarer.

System for datavalidering

Fase 1: Systemforståelse (trin 1–3)

1. Analyse af systemet 

2. Analyse af dataarkitektur 

3. Indledende gennemgang 

Fase 2: Valideringsproces (trin 4–7) 

4. Design af valideringsregler 

5. Implementering af regler 

  6. Eksekvering af regler 

7. Gennemgang og forbedring