Werken aan CompetentNL: hybride AI
De ontwikkeling - en het gebruik - van een hybride artificial intelligence-systeem (AI) speelt een sleutelrol in de ontwikkeling van CompetentNL. Leyla el Khamlichi van UWV en Lars Burgerjon van het CBS zijn als data scientists betrokken bij de totstandkoming daarvan. Zij vertellen wat hun werk en hybride AI precies inhouden, wat CompetentNL er uiteindelijk mee moet kunnen, en tegen welke uitdagingen ze aanlopen.
Allereerst: hoe zijn jullie bij het project betrokken geraakt?
Lars: ‘Ik ben eigenlijk steekproefontwerper bij het CBS, maar twee jaar geleden werd mij gevraagd om deel te nemen aan dit project. Ik werk aan het onderdeel ‘Natural Language Processing’ (NLP). Doel daarvan is om menselijke taal om te zetten in computerdata. Ik heb een achtergrond in de wiskunde, dus dat is vrij nieuw voor mij, maar ook heel leerzaam!’
Leyla: ‘Ik ben erin gerold omdat het project, vanuit UWV, een data scientist nodig had: iemand die bekend is met NLP en AI. Daar heb ik een achtergrond in, dus dat sloot mooi op elkaar aan.’
Hybride AI: computer en mens komen er beiden aan te pas
Jullie werken dus aan een hybride AI voor CompetentNL. Wat is dat precies? En wat is jullie rol?
Lars: ‘In het kort: bij het CBS krijgen wij vacaturedata van UWV aangeleverd. Het doel is om daaruit skills te extraheren, met de hybride AI die we ontwikkelen. Het kan zijn dat de hybride AI via die extractie nieuwe skills ontdekt, of synoniemen vindt van bestaande skills. Die moeten dan weer gekoppeld worden aan die bestaande skills. Als dat klaar is gaat de output – dat wil zeggen: datgene wat de hybride AI heeft gevonden – in een AI-validatietool voor UWV. Daarin vindt een laatste check plaats, niet door een computer, maar door een mens: heeft de AI zijn werk goed gedaan? Vandaar noemen we het ook een hybride AI: computer en mens komen er beiden aan te pas. Wanneer alles goedgekeurd is, dan gaat die output als verrijking CompetentNL in.’
Leyla: Ik help Lars, vanuit UWV, om uit te zoeken hoe ze de extractie kunnen optimaliseren. Het is voor het model lastig om skills uit stukken tekst te halen. Menselijke taal omzetten in data is complex: iedereen gebruikt verschillende woorden, die soms wel dezelfde betekenis hebben. Verder houd ik me bezig met de kwaliteit van de data. Ik heb een script voor het systeem ontwikkeld, zodat het ziet of bepaalde zinnen op elkaar lijken. Dat voorkomt dubbelingen in de extracties. Alle skills die we genereren moeten uniek zijn. En als laatst: ik denk erover na hoe we ervoor zorgen dat de skills een koppeling krijgen met het onderwijs, en hoe CompetentNL straks beschikbaar is voor iedereen. Want dat is de bedoeling.’
Waarom is het belangrijk om die synoniemen voor skills aan elkaar te koppelen?
Lars: ‘Het is belangrijk om elkaars taal te spreken. Stel, er zijn twee vacatureteksten voor de functie van heftruckchauffeur. In de ene staat iets over ‘besturen’ en in de andere over ‘rijden’. Beide woorden betekenen in deze context hetzelfde. In CompetentNL wil je ze in deze context daarom koppelen: zo wordt het straks gemakkelijker om skills te vinden. Daarnaast gaat het CBS statistieken maken over skills die in CompetentNL staan. En hoe meer synoniemen er zijn, hoe makkelijker het is om statistieken te maken over hoe vaak bepaalde skills voorkomen in vacatures. Als je synoniemen mist, mis je skills.’
En straks is het systeem klaar: wat levert dat dan op?
Leyla: ‘Eén van de redenen voor UWV om hiermee bezig te zijn, is dat er vanuit de arbeidsmarkt behoefte is aan een gestandaardiseerde publiek toegankelijke skillstaal. We hebben daarbij veel aandacht voor synoniemen: om de taal van de markt te kunnen doorgronden: welke skills horen bij welk beroep? Welke sectoren vertonen daarin overlappingen? En hoe kunnen we die kennis gebruiken om mensen – die dat willen – van de ene sector naar de andere te begeleiden? Dat is wat de hybride AI op moet leveren.’
Lars: ‘Voor het CBS is het vooral belangrijk dat we goede statistieken kunnen maken op basis van skills. Daarvoor hebben we dezelfde hybride AI nodig als UWV. Met statistiek op skills niveau willen we de arbeidsmarkt en het onderwijs, en zo ook de maatschappij van relevante informatie voorzien. CompetentNL moet dus stevig staan, dat is een absolute randvoorwaarde voor goede statistieken.’
Zijn er uitdagingen waar jullie tegenaan lopen?
Lars: ‘Zoals Leyla al zei: AI heeft nog wat moeite om te zien wat er echt staat in een zin. Volledige zinnen interpreteren blijft moeilijk. Dat is vooral bij soft skills het geval, omdat die vaak niet expliciet genoemd worden. ‘Samenwerken’ kun je bijvoorbeeld op heel veel manieren opschrijven; ‘heftruck besturen’ niet.’ Leyla: ‘Het systeem is dus ook volledig afhankelijk van ‘de kwaliteit’ van de data waarmee het gevoed wordt. Heldere teksten verwerkt de AI beter.’ Lars: ‘Garbage in is garbage out’, zeggen data scientists vaak.
Leyla: ‘En juist die soft skills zijn ontzettend belangrijk. Bij UWV kloppen ook mensen aan die geen diploma’s bezitten. Voor succes bij sollicitaties zijn zij dus volledig afhankelijk van hun soft skills. Essentieel om die goed in CompetentNL te hebben staan dus. Een hele leuke en interessante uitdaging!’
Wanneer is jullie missie geslaagd?
Lars: ‘Ik denk dat we een heel eind zijn wanneer de koppeling tussen CBS en UWV goed staat. Dat wil zeggen: de hybride AI is klaar, UWV ontvangt suggesties van ons, die worden beoordeeld en vervolgens gaan die CompetentNL in. De hybride AI voedt zich met de data die in CompetentNL groeit. Hoe meer erin staat, hoe beter de output wordt. Wanneer die ‘loop’ goed werkt, ben ik meer dan tevreden.’
Leyla: ‘Ik ben heel blij als CompetentNL voor iedereen beschikbaar en begrijpelijk is, én de koppeling tussen UWV en het CBS staat. Al met al is het een grote klus om alles rond te krijgen. We horen vaak: ‘Waarom duurt het allemaal zo lang’? Ook omdat er al twee eerdere skillstalen zijn gemaakt: ESCO en O*NET. We putten ook uit die bronnen, maar doen wel echt iets significant anders: we nemen echt ieder woord en iedere zin onder de loep om deze skillstaal goed te ontwikkelen voor de Nederlandse markt, plus we gaan een koppeling met het onderwijs maken. En dat is bij ESCO en O*NET niet gebeurd en al helemaal niet specifiek voor Nederland.’