Homoniemen, woorden die meerdere betekenissen hebben, zoals “berg”, “kan”, “doel” en “kop” zijn altijd goed voor woordgrapjes. En voor verwarrende vertalingen door bijvoorbeeld Google Translate. Want ja, hoe kan een computer weten dat “ren” als in “ik ren weg” anders is dan “ren” in “de kip zit in de ren”.
Er is al een heleboel gebeurd in het programmeren van computers om onze taal steeds beter te begrijpen. De regels van de semantiek worden zo goed mogelijk ingegeven in de steeds verbeterde software. Een goed voorbeeld van hoe dichtbij de menselijke taal een computer kan komen, is de prestatie van supercomputer Watson bij het spelletje Jeopardy!
Waar het om draait is context. De betekenis van een woord blijkt veelal uit de context (waardoor je Duitse en Franse boeken kan lezen zonder woordenboek er naast, zonder dat je alle woorden letterlijk kunt vertalen). Bij een computer werkt het net zo, alleen moet je dan wel bijzonder veel context ingeven, want een computer moet het met de feitelijke context doen en kan niet zo veel met bijvoorbeeld waar een boek over gaat, wat wij ons tijdens het lezen wel bewust zijn.
Baby’s leren woorden wel in context omdat ze deze horen in de omgeving waarin ze passen. Zo weten ze ongemerkt onderscheid te maken tussen de verschillende betekenissen die woorden kunnen hebben. Razend knap, een computer doet het je baby niet na!
Linguistisch onderzoekster Katrin Erk heeft een nieuwe methode ontwikkeld om woorden in een “high-dimensional space” te visualiseren en de steeds krachtigere supercomputers maken het mogelijk om dit model uit te werken.
Erk: “An intuition for me was that you could visualize the different meanings of a word as points in space. You could think of them as sometimes far apart, like a battery charge and criminal charges, and sometimes close together, like criminal charges and accusations (“the newspaper published charges…”). The meaning of a word in a particular context is a point in this space. Then we don’t have to say how many senses a word has. Instead we say: ‘This use of the word is close to this usage in another sentence, but far away from the third use.”
Hier nog een duidelijk filmpje van Katrin Erk waarin ze zelf haar onderzoek duidelijk uitlegt en waarin je ook ziet dat dit proces bij een baby vanzelf gaat: