Tot op heden worden analyses en besluitvorming overwegend gebaseerd op data die in gestructureerde vorm is opgeslagen, al dan niet in een databases of meerdere bestanden. Het gaat hier vrijwel altijd om gestructureerde tekstuele of numerieke informatie. Tegenwoordig zijn echter veel gegevens die door bedrijven worden opgeslagen “ongestructureerd”. Denk hierbij aan media bestanden zoals video, afbeeldingen, foto’s en audio. Maar ook ongestructureerde teksten zoals verslagen, logs of een archief gedigitaliseerde documenten worden gebruikt.
De informatie die in deze mediabestanden (als ongestructureerde data) ‘verborgen’ zit, biedt vaak ongekende additionele mogelijkheden voor betere data processing, analyses en besluitvorming. Meer en meer is belangrijke informatie voor de verwerking en besluitvorming te halen uit de eerder genoemde ongestructureerde data. Informatie die beschikbaar kan worden gemaakt uit afbeeldingen (bijvoorbeeld van producten), foto’s (zoals medische röntgenfoto’s), video (bijvoorbeeld door drones gemaakte inspectievideo’s), audio (denk maar eens aan opnamen van online vergaderingen) of ongestructureerde tekst (bijvoorbeeld chatlogboeken of feeds van sociale media). Deze waardevolle informatie uit ongestructureerde data kan stuk voor stuk gebruikt worden voor analyse en besluitvorming; soms zelfstandig of in combinatie met reeds beschikbare gestructureerde data.
Machine Learning (ML) is een onderdeel van Kunstmatige Intelligentie (of: Artificial Intelligence – AI) en werkt op basis van specifieke ML-modellen. Deze modellen worden gebouwd en getraind voor een bepaald doel. Hoe meer de modellen vooraf getraind (kunnen) worden, des te meer zijn zij generiek beschikbaar en kunnen ze vervolgens worden aangepast aan het specifieke gebruiksdoel. Op deze wijze kan (relatief) eenvoudig de informatie uit de genoemde ongestructureerde media ontsloten worden. Uiteraard vereist dit wel dat deze ML-oplossingen worden geïntegreerd in het bestaande ‘dataverwerkingsproces’.
We geven je graag inzicht in een aantal gebruiksvoorbeelden (use cases) die van toepassing zijn op deze ML-modellen op ongestructureerde data:
→ Ongestructureerde tekst
Op basis van chatlogboeken van klanten, Twitter-berichten en gedigitaliseerde documenten is het mogelijk om ML-modellen te bouwen (of te gebruiken) om automatisch informatie te extraheren of stukjes tekst te classificeren. Denk hierbij bijvoorbeeld maar eens aan sentimentsanalyse (begrijpen of een tekstpassage positief, negatief of neutraal is) of entiteitsherkenning (automatisch classificeren van bijvoorbeeld locaties, mensen, organisaties, etc).
Deze ‘tekstherkenning’ valt onder de paraplu van Natural Language Processing (NLP), een tak van AI die gebruikt wordt om menselijke taal te begrijpen en te genereren. Soms kan de output van dit soort modellen een nieuw kenmerk (attribuut) zijn voor een gestructureerd datamodel.
→ Audio
Het belangrijkste gebruiksscenario voor audio-ML is het transcriberen van spraak, waarvoor inmiddels nauwkeurige spraakherkenningsmodellen beschikbaar zijn. Deze transcripties kunnen op hun beurt worden gebruikt in NLP-modellen, zoals bijvoorbeeld slimme luidsprekers of geautomatiseerde stemondersteuning. Ook de detectie van geluidsgebeurtenissen is een mogelijkheid: het detecteren van bepaalde geluidseffecten in een audiosignaal voor bijvoorbeeld voorspellend onderhoud van machines of het activeren van beveiligingssystemen (het breken van glas). Daarnaast kan door middel van stemherkenning van een persoon (gebruiker) klantidentificatie of beveiliging ingezet worden.
→ Afbeeldingen en foto’s
Bij computervisie draait het om het begrijpen van de inhoud van afbeeldingen en video’s, waarbij we moeten bedenken dat dit inzicht slechts voorspellingen zijn van een ML-model met een bepaalde ‘accuraatheid’. Er zijn drie type modellen die met behulp van afbeeldingen kunnen worden gebouwd:
→ Video
Ook video’s zijn uiteraard beeldenstromen en inzetbaar bij het gebruik van Machine Learning. Andere ML-technieken die veel voorkomen bij video’s zijn:
Het gebruik van ML en ML-modellen voor specifieke doeleinden is en wordt veel eenvoudiger dan het eerder was. Tot voor kort moest je zelf de ML-modellen trainen en annoteren. Annotatie is het proces waarbij gegevens worden voorzien van de juiste informatie (’groundtruth’), zodat het model nauwkeurig kan worden getraind en geëvalueerd. Dit is een zeer arbeidsintensief en tijdrovend proces. Op dit moment zijn en komen er meer en meer ‘voorgetrainde’ modellen beschikbaar waarbij het annoteren en trainen van de modellen al gedaan is. Hierdoor wordt het toepassen van deze beeld- en tekstherkenningsmodellen eenvoudiger en dus voor meer organisaties beschikbaar.
Incore Solutions heeft inmiddels een behoorlijke ervaring opgebouwd met het uitvoeren van deze projecten en kan ook uw organisatie helpen om meerwaarde te halen uit de ongestructureerde data in uw organisatie.
Heeft u vragen of wilt u meer weten hierover? Neem dan gerust contact met ons op!