20 december 2023 Innovatie
Door Jelle Minnema
20 december 2023 Innovatie

ML-modellen in de praktijk Gebruik ongestructureerde data voor analyses en besluitvorming

Tot op heden worden analyses en besluitvorming overwegend gebaseerd op data die in gestructureerde vorm is opgeslagen, al dan niet in een databases of meerdere bestanden. Het gaat hier vrijwel altijd om gestructureerde tekstuele of numerieke informatie. Tegenwoordig zijn echter veel gegevens die door bedrijven worden opgeslagen “ongestructureerd”. Denk hierbij aan media bestanden zoals video, afbeeldingen, foto’s en audio. Maar ook ongestructureerde teksten zoals verslagen, logs of een archief gedigitaliseerde documenten worden gebruikt.

De informatie die in deze mediabestanden (als ongestructureerde data) ‘verborgen’ zit, biedt vaak ongekende additionele mogelijkheden voor betere data processing, analyses en besluitvorming. Meer en meer is belangrijke informatie voor de verwerking en besluitvorming te halen uit de eerder genoemde ongestructureerde data. Informatie die beschikbaar kan worden gemaakt uit afbeeldingen (bijvoorbeeld van producten), foto’s (zoals medische röntgenfoto’s), video (bijvoorbeeld door drones gemaakte inspectievideo’s), audio (denk maar eens aan opnamen van online vergaderingen) of ongestructureerde tekst (bijvoorbeeld chatlogboeken of feeds van sociale media). Deze waardevolle informatie uit ongestructureerde data kan stuk voor stuk gebruikt worden voor analyse en besluitvorming; soms zelfstandig of in combinatie met reeds beschikbare gestructureerde data.

Machine Learning modellen

Machine Learning (ML) is een onderdeel van Kunstmatige Intelligentie (of: Artificial Intelligence – AI) en werkt op basis van specifieke ML-modellen. Deze modellen worden gebouwd en getraind voor een bepaald doel. Hoe meer de modellen vooraf getraind (kunnen) worden, des te meer zijn zij generiek beschikbaar en kunnen ze vervolgens worden aangepast aan het specifieke gebruiksdoel. Op deze wijze kan (relatief) eenvoudig de informatie uit de genoemde ongestructureerde media ontsloten worden. Uiteraard vereist dit wel dat deze ML-oplossingen worden geïntegreerd in het bestaande ‘dataverwerkingsproces’.

Voorbeelden van het gebruik van ML-modellen

We geven je graag inzicht in een aantal gebruiksvoorbeelden (use cases) die van toepassing zijn op deze ML-modellen op ongestructureerde data:

Ongestructureerde tekst

Op basis van chatlogboeken van klanten, Twitter-berichten en gedigitaliseerde documenten is het mogelijk om ML-modellen te bouwen (of te gebruiken) om automatisch informatie te extraheren of stukjes tekst te classificeren. Denk hierbij bijvoorbeeld maar eens aan sentimentsanalyse (begrijpen of een tekstpassage positief, negatief of neutraal is) of entiteitsherkenning (automatisch classificeren van bijvoorbeeld locaties, mensen, organisaties, etc).

Deze ‘tekstherkenning’ valt onder de paraplu van Natural Language Processing (NLP), een tak van AI die gebruikt wordt om menselijke taal te begrijpen en te genereren. Soms kan de output van dit soort modellen een nieuw kenmerk (attribuut) zijn voor een gestructureerd datamodel.

Audio

Het belangrijkste gebruiksscenario voor audio-ML is het transcriberen van spraak, waarvoor inmiddels nauwkeurige spraakherkenningsmodellen beschikbaar zijn. Deze transcripties kunnen op hun beurt worden gebruikt in NLP-modellen, zoals bijvoorbeeld slimme luidsprekers of geautomatiseerde stemondersteuning. Ook de detectie van geluidsgebeurtenissen is een mogelijkheid: het detecteren van bepaalde geluidseffecten in een audiosignaal voor bijvoorbeeld voorspellend onderhoud van machines of het activeren van beveiligingssystemen (het breken van glas). Daarnaast kan door middel van stemherkenning van een persoon (gebruiker) klantidentificatie of beveiliging ingezet worden.

Afbeeldingen en foto’s

Bij computervisie draait het om het begrijpen van de inhoud van afbeeldingen en video’s, waarbij we moeten bedenken dat dit inzicht slechts voorspellingen zijn van een ML-model met een bepaalde ‘accuraatheid’. Er zijn drie type modellen die met behulp van afbeeldingen kunnen worden gebouwd:

  • Afbeeldingsclassificatie: dit is eenvoudigweg het automatisch toewijzen van een label of klasse aan een hele afbeelding. Het kan een controle zijn om te zien of een afbeelding ongepaste inhoud bevat, maar kan ook worden ingezet om producten op basis van de afbeelding te categoriseren of om afbeeldingen van goede en slechte kwaliteit te identificeren. Deze methode wordt veelal gebruikt door e-commerce-, reis- en sociale-mediawebsites om door gebruikers gemaakte inhoud automatisch te beoordelen.
  • Objectdetectie: identificatie van interessante objecten in een afbeelding. Vaak gaat het hierbij om het tellen van veel objecten die relatief eenvoudig te identificeren zijn (fruit aan een boom) of om complexere patronen te identificeren (fabricagefouten).
  • Segmentatie: deze methode heeft tot doel elk deel van een afbeelding te classificeren. Het creëert een “masker” voor de afbeelding, wat in wezen een label is voor elke pixel. Dit is handig als u niet alleen naar de locatie van objecten zoekt, maar ook naar hun precieze grootte en vorm. Deze modellen worden gebruikt bij medische beeldvorming of het analyseren van satellietbeelden.

 

Video

Ook video’s zijn uiteraard beeldenstromen en inzetbaar bij het gebruik van Machine Learning. Andere ML-technieken die veel voorkomen bij video’s zijn:

  • Schatting van de menselijke houding: voor het identificeren van verschillende punten van het menselijk lichaam in een afbeelding of video. Dit is handig voor gebruiksscenario’s waarbij de acties van mensen worden gemonitord, zoals de veiligheid van bestuurders of augmented reality.
  • Volgen van een object: deze techniek is een uitbreiding van objectdetectie en helpt je voortdurend objecten in video’s bij te houden en inzicht te krijgen in hun trajecten wanneer ze het scherm hebben verlaten of opnieuw verschijnen. Geavanceerdere tracking laat zelfs relaties zien tussen objecten, bijvoorbeeld teamgenoten in sportvideo’s.

 

Betere toegankelijkheid van ML-modellen

Het gebruik van ML en ML-modellen voor specifieke doeleinden is en wordt veel eenvoudiger dan het eerder was. Tot voor kort moest je zelf de ML-modellen trainen en annoteren. Annotatie is het proces waarbij gegevens worden voorzien van de juiste informatie (’groundtruth’), zodat het model nauwkeurig kan worden getraind en geëvalueerd. Dit is een zeer arbeidsintensief en tijdrovend proces. Op dit moment zijn en komen er meer en meer ‘voorgetrainde’ modellen beschikbaar waarbij het annoteren en trainen van de modellen al gedaan is. Hierdoor wordt het toepassen van deze beeld- en tekstherkenningsmodellen eenvoudiger en dus voor meer organisaties beschikbaar.

Incore Solutions heeft inmiddels een behoorlijke ervaring opgebouwd met het uitvoeren van deze projecten en kan ook uw organisatie helpen om meerwaarde te halen uit de ongestructureerde data in uw organisatie.

Heeft u vragen of wilt u meer weten hierover? Neem dan gerust contact met ons op!

Jelle Minnema Sales Manager