Tag: computertaalkunde

Aandacht als de sleutel om taal te begrijpen

Door Marc van Oostendorp

Sommige van de belangrijke ontwikkelingen in de taalkunde komen uit de computertaalkunde – de discipline waar men probeert computers aan het praten, luisteren, schrijven en lezen te krijgen. Toen ik studeerde, stond het nog dicht bij wat andere taalkundigen deden, maar inmiddels heeft de technologie een grote, en eigen, vlucht genomen.

Er gebeurt, desondanks of daarom, van alles in dat vak. Ik heb de indruk dat ontwikkelingen er misschien wel sneller gaan dan elders, maar je leest er weinig over. De wetenschapsjournalistiek is om de een of andere reden niet bovenmatig geïnteresseerd – misschien omdat het onderwerp teveel tussen alfa en beta in valt – en de computertaalkundigen zelf hebben minder belangstelling voor outreach dan sommige andere groepen – misschien omdat ze gemakkelijk goede banen kunnen vinden en dus geen behoefte hebben uit te leggen wat ze aan het doen zijn.

Het bovenstaande, een paar weken geleden op YouTube verschenen, filmpje is een uitzondering. Het legt in twintig minuten helder uit waar men nu staat in de computertaalkunde, aan de hand van predictive text: de functionaliteit die veel mensen op hun telefoon hebben zitten en die (in ieder geval voor het Engels) kan voorspellen wat het volgende woord is dat je gaat typen. (Momenteel gaat onder taalkundigen toevallig een meme rond waarin je I’m a linguist and that means that I intikt en dit laat aanvullen met predictive text.)

Lees verder >>

Ironie. #not

Door Marc van Oostendorp

De Nederlandse Twittertaal ontwikkelt een verschil tussen de hashtags #niet en #not, ontdekte ik gisteren toevallig. De eerste geeft meestal een krachtige ontkenning aan; de tweede betekent ironie.

Het is niet gemakkelijk om ironie te herkennen. Dat komt doordat het een stijlfiguur is die zich als het ware verstopt: de spreker neemt terwijl hij iets zegt afstand van wat hij zegt, en je moet over een verfijnde antenne beschikken om dat aan te voelen: hoe waarschijnlijk is het dat deze spreker doodernstig is als hij zegt wat hij zegt? Het lukt eigenlijk alleen als je de spreker goed genoeg kent, of op de een of andere manier weet dat hij in vertrouwde sociale kringen verkeert.

Het is menselijkerwijs onmogelijk om van al je medemensen te kunnen herkennen of ze ironisch zijn. Lees verder >>

Afwezige verschillen v/m in literaire schrijfstijl? Een snufje nuance

Door Corina Koolen

Toen ik de afgelopen week promoveerde, stond mijn onderzoek beschreven in de grote kranten. De Volkskrant, NRC, nrc.next en Het Parool  besteedden er aandacht aan. Dat waren mooie stukken; ik vind het uiteraard belangrijk dat mijn onderzoek benaderbaar is en dat het iets toevoegt aan het publieke debat.

Aan de andere kant is er nu één ding dat blijft wringen. Waarvan ik vrees dat het een indruk wekt die ik niet wil achterlaten. Dus vandaar dat ik dat even wil rechtzetten. Het lijkt misschien alsof ik met mijn computationele methodes bewijs dat er geen verschillen zijn tussen de werken van vrouwelijke en mannelijke literaire auteurs. Dat ligt in de werkelijkheid wat genuanceerder. Omdat ik niet verwacht dat iedereen nu daadwerkelijk mijn proefschrift gaat lezen – het is nogal een dik boek – zal ik hier even samenvatten wat heb gevonden. Lees verder >>

Praten met robots dankzij Google

Door Lucas Seuren

De afgelopen decennia heb ik regelmatig claims gezien dat computers spoedig probleemloos kunnen communiceren met mensen, en dat we het niet eens meer door zullen hebben als we met een AI praten. Maar tot op heden waren dialoogsystemen absoluut niet in staat om de Turingtest te doorstaan; we maken nog altijd eenvoudig onderscheid tussen een menselijke gesprekspartner en een AI. Maar het lijkt er nu op dat Google toch een flinke sprong voorwaarts heeft gemaakt met Duplex.

Wie luistert naar de voorbeeldopnamen die Google heeft gedeeld kan niet anders dan onder de indruk zijn van de effectiviteit waarmee Duplex gesprekken kan voeren en afspraken kan maken. Duplex weet wat hij of zij—ik ga voor sekse maar af op de gebruikte stem—moet zeggen, wanneer hij of zij het moet zeggen, en hoe hij of zij het moet zeggen. Natuurlijk, wie met een kritisch oor luistert merkt dat we nog altijd met een AI te maken hebben, maar Duplex brengt ons op een punt dat die kennis irrelevant is. We kunnen normaal praten met Duplex; we hoeven niet meer moeilijk te doen om ervoor te zorgen dat de computer ons kan verstaan zoals met bijvoorbeeld Siri of Alexa nog vaak het geval is. Lees verder >>

De mens is een dier dat samenwerkt

Door Marc van Oostendorp

Je zit in de auto, het is midden in de nacht, de reis is nog lang en je wil nu tanken. Je vraagt aan de spraakcomputer: “waar is hier in de buurt een benzinestation?” Vervelend is dan als die computer een lijst van 16 bezinestations geeft die ‘in de buurt’ zijn, hoewel ze deels niet eens aan dezelfde weg liggen (ze liggen wel in een straal van 10 km om de plaats heen waar je nu bent). Om de zaak te redden vraag je dan “welke zijn nog open”. Tot je grote ontreddering zegt de computer dan “zal ik ‘welke zijn nog open?‘ googelen?”

Beide antwoorden zijn op zich correct, maar niet erg zinvol. Je wil geen lijst, je wil één of twee zinnige opties. Je wil niet ‘welke zijn nog open?’ googelen, maar je wil weten welke bezinestatons in de buurt op dit moment nog open zijn. Lees verder >>

Literaire stijl als een computerkunstje

(Persbericht Radhoud Universiteit)

Is de creatie van een uniek literair oeuvre voorbehouden aan zwoegende schrijvers of kan een computer de klassiekers imiteren? In het project ‘Writers in the Cloud’ schrijven bezoekers van het Erasmusgebouw van de universiteit met behulp van taaltechnologie een tekst in de trant van schrijvers als Couperus, Grunberg of Bervoets. Het project dat op 2 oktober van start gaat, is een samenwerking tussen taalwetenschappers van de Radboud Universiteit en kunstenaarscollectief KunstLAB Arnhem.

Het concept is vrij simpel. Projectleider Roel Willems: ‘De computer projecteert elke keer drie woorden uit het oeuvre van bijvoorbeeld  Couperus of Multatuli. Vervolgens stemmen de bezoekers van het Erasmusgebouw voor één van de woorden door over de projectie van hun favoriete woord te lopen.’ Het meest gekozen woord wordt opgenomen in een nieuw gegeneerde zin in de stijl van de auteur. Gezamenlijk schrijven de bezoekers op deze manier een week lang een tekst in de stijl van één bepaalde schrijver. Lees verder >>

Oplossing voor taalkundig probleem van 100 jaar oud

(Persbericht Radboud Universiteit)

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf’s law’ is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing voor dit notoire probleem in het wetenschappelijk tijdschrift PLOS ONE.

Zipf’s law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord (zie Figuur 1). De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren. Lees verder >>

Perplexiteit als venster op de taal

Door Marc van Oostendorp

Een zin is een meerdimensionaal object. Hij bestaat uit woorden, die op hun beurt minstens twee dimensies hebben: een klankvorm (‘spruitje’) en een betekenis (‘klein groen koolachtig bolletje met een bittere smaak’). En die woorden staan ook nog eens in een bepaalde syntactische relatie tot elkaar. Als je naar een zin, een willekeurige zin, luistert, moeten je hersenen op al die verschillende niveaus – klank, betekenis, zinsbouw – aan de slag.

Daarover gaat een onderzoek van een groep Nijmeegse onderzoekers (full disclosure: een ervan is onze directeur op het Meertens Instituut) in het tijdschrift PLOS One.  De onderzoekers zeggen zelf in hun conclusie dat ze in dit artikel nieuwe bewijzen willen hebben laten zien voor een driedeling, maar in mijn ogen is dat helemaal het punt niet.  Dat die verschillende niveaus er zijn is nogal zó wiedes en al zo vaak gedemonstreerd dat het nauwelijks bewijs behoeft. Het artikel lijkt me vooral belangrijk als een demonstratie van een nieuw soort methode, waarin computermodellen en hersenscans worden gecombineerd.

Het probleem van hersenen is dat er sowieso de hele tijd van alles in gebeurt. Lees verder >>

Hoe werkt Google Translate?

Door Marc van Oostendorp

Vorige week kondigde Google Translate een nieuwe, verbeterde versie aan van de vertalingen van (onder andere) het Nederlands naar het Engels en omgekeerd. Hoe is de nieuwe versie verbeterd? En wat kan er nóg beter? Ik vroeg het aan Antal van den Bosch, de directeur van het Meertens Instituut en zelf als hoogleraar Taal- en Spraaktechnologie ook ervaren in het maken van vertaalcomputers.

(Bekijk deze video op YouTube.)

Herken de herkomst aan de taal: goed idee?

Door Sterre Leufkens

Hoe weet je waar iemand vandaan komt? Zie je dat aan zijn kleding? Aan zijn haarkleur? Of is bepaald gedrag bepalend? Dat lijkt toch allemaal vrij oppervlakkig. Een van de beste manieren om iemands herkomst te bepalen lijkt toch zijn taal te zijn. Op basis van dat principe proberen immigratiediensten in binnen- en buitenland al jarenlang om te bepalen of vluchtelingen wel echt uit de streek komen waar ze zeggen vandaan te komen. Ook recent was het weer in het nieuws: Duitsland wil automatische spraakherkenning inzetten om de herkomst van immigranten te bepalen. Is dat een goed idee? Doen we dat in Nederland eigenlijk ook? En hashtag hoe dan?

Als je in Nederland asiel aanvraagt, gaat de IND bekijken of je in aanmerking komt voor een verblijfsvergunning. Je moet dan vertellen waar je vandaan komt, en waarom en hoe je gevlucht bent. De IND gaat controleren of je verhaal klopt. In sommige gevallen maken ze daarbij gebruik van een taalanalyse. Een linguïst analyseert dan, met behulp van een moedertaalspreker van de taal in kwestie, een opname van de taal van de asielzoeker. Als accent, woordkeuze, en andere kenmerken overeenkomen met waar de asielzoeker zegt vandaan te komen, dan is dat een goede aanwijzing dat het verhaal klopt.  Lees verder >>

Teleurstellingswetenschap

Door Marc van Oostendorp

Het is onzeker dat er behalve de mens ergens in het universum nog een wezen is dat teleurstelling kan ervaren. Het is vergeleken met bijvoorbeeld boosheid of vrolijkheid een ingewikkelde emotie. Je moet iets verwacht hebben en dan moet het gebeurd zijn en je gevoel over die gebeurtenis moet negatiever zijn dan van te voren.

Wie wil er geen teleurstellingen voorkomen? Het onderzoek waarop Florian Kunneman vorige week in Nijmegen promoveerde zou daar een bouwsteentje voor kunnen zijn. Hij heeft er zelfs een nieuw woord voor gemunt: anticipointment (anticipileurstelling), al snap ik niet zo goed waarom: kan teleurstelling bestaan zonder anticipatie?)

Kunnemans onderzoek is gericht op Twitter: kun je de computer laten voorspellen wanneer gebeurtenissen zullen plaatsvinden door Twitter te lezen? En kan zo’n computer de gevoelens meten die er op Twitter heersen? Lees verder >>

Water en taal

Door Marc van Oostendorp

untitled_artwork-1Een taal is geen stroompje, maar een grote, brede rivier. Traag stroomt ze permanent in de richting van de zee. Als je iets dichter bij kijkt, zie je golfjes die in de richting van de oever gaan. En nóg dichterbij, onder de microscoop, bewegen de moleculen alle kanten op.

Zo is het ook met de taal. In de loop van de eeuwen gaat ze een bepaalde richting op. Het Nederlands verandert bijvoorbeeld in een naamvalsloze taal; die verandering is in de 14e eeuw voortgezet, nu hebben we alleen nog een paar naamvallen voor de persoonlijk voornaamwoorden (ik/mij), maar ook die zijn langzaam maar zeker aan het wegslijten.

Een niveau lager zijn er wat gedetailleerdere veranderingen, die zo’n beetje alle kanten op gaan.  Lees verder >>

Bewijs maar eens dat een robot geen god is

Door Marc van Oostendorp

Ergens in Amerika staan twee speakertjes nu al dagen onafgebroken met elkaar te kibbelen. En dat is enigszins beangstigend.

Op dit moment zeggen de twee, die geheel terecht Vladimir en Estragon genoemd worden, bijvoorbeeld tegen elkaar:

  • V: A while ago, you said you were a human girl.
  • E: Yes, I am a human girl.
  • V: Why do you think you are human?
  • E: I have a human brain.
  • V: So are you a human?
  • E: Yes, and so are you.
  • V: Prove that you are human.
  • E: I asked you first.
  • V: What did you ask me?
  • E: To prove that I am not god.

Op Reddit vonden de gebruikers al snel uit wat hier aan de hand is. Lees verder >>

Computer vindt tussentaal

Door Marc van Oostendorp

image00Een van de problemen voor vertaalcomputers was tot nu toe altijd dat er zoveel talen zijn. Je kunt jaren besteden aan een computer die goede vertalingen maakt van het Frans in het Engels, en dan vele jaren voor een computer die Russisch in het Engels vertaalt, maar dan heb je het Frans en het Russisch nog niet aan elkaar gekoppeld. Dat probleem lijkt nu op een interessante manier te worden opgelost door het team achter Google Translate, die er deze week een artikel over publiceerden.

Bij iedere taal die je toevoegt wordt het probleem ingewikkelder. Drie talen (Frans, Russisch, Engels) betekent drie paren talen (Frans-Engels, Frans-Russisch, Engels-Russisch); maar als je een vierde aan de verzameling toevoegt (Nederlands) worden dat er ineens zes (Nederlands-Frans, Nederlands-Engels, Nederlands-Russisch komen erbij). En bij een vijfde taal komen er vier taalparen bij, enzovoort. Omdat vertalen van het Russisch naar het Nederlands nog iets anders is dan vertalen van het Nederlands naar het Russisch, moet je die aantallen eigenlijk nog verdubbelen. Hoe meer talen er al zijn, hoe meer werk het wordt om er nog een aan toe te voegen.  Lees verder >>

Google Translate wordt onbegrijpelijker (en beter)

Door Marc van Oostendorp

Processed with Snapseed.
-What do these options mean? Que signifient les options?

Het is al een tijdje geleden dat Google Translate in het nieuws was, maar deze week kwam Google weer met een fascinerend bericht.

Een paar jaar geleden hoorde je regelmatig over deze online-vertaalmachine: steeds weer werden nieuwe talen toegevoegd aan het systeem, en je kreeg ook het gevoel dat vertalingen inderdaad steeds beter werden. Maar op zeker moment stagneerde het: er kwamen nauwelijks talen bij, en de kwaliteit van de vertalingen tussen bestaande taalparen werd ook niet meer verhoogd.

Was dit het dan?

Moduletje

Deze week kwam het bedrijf met een blogpost en een wetenschappelijk artikel waarin het een nieuwe doorbraak aankondigde: een geheel nieuwe manier van vertalen, die Neural Machine Translation genoemd wordt en die gebruik maakt van technieken die de laatste jaren populair zijn geworden in de wereld van de kunstmatige intelligentie. De computer die een tijdje geleden de wereldkampioen Go versloeg  (wat tot voor kort ondenkbaar is, want Go is de ingewikkeldste van alle bordspelen) maakt ook gebruik van dergelijke techieken.

De term neural in de nieuwe naam komt natuurlijk voort uit een metafoor. Lees verder >>

Kun je een computer een (relevant) artikel / boek laten schrijven?

Onverwachte taalvragen aan de Wetenschapsagenda (21)

Door Marc van Oostendorp

computerSommige vragen aan de Nationale Wetenschapsagenda storten de rijpere onderzoeker in een  de nostalgie. Kennelijk worden mensen nog steeds warm van kwesties als de volgende:

Kun je een computer een (relevant) artikel / boek laten schrijven? Zijn er algoritmes denkbaar waarbij je computers geautomatiseerd een artikel of een boek laat schrijven? Hoogstwaarschijnlijk krijg je dan veel artikelen/boeken zonder enige betekenis. Maar als je geautomatiseerd heel veel artikelen/ boeken laat genereren, verschijnen er theoretisch ook teksten die wel relevantie hebben. En als je die relevante teksten vervolgens met slimme zoeksoftware op het spoor weet te komen, ontstaat er wellicht een interessante bron van informatie.

Weinig mensen hebben de tijd bewust meegemaakt waarin deze vraag niet gesteld werd: Lees verder >>

Facebook wordt taalvaardiger, maar verre van taalvaardig

Door Lucas Seuren

De wens om computers menselijke taal te leren is al vele facebook logodecennia oud, maar tot op heden zijn ze daar slechts zeer beperkt toe in staat. Facebook kondigde onlangs een nieuwe engine aan die tekst van gebruikers beter moet gaan begrijpen: DeepText. Deze engine zou met bijna menselijke precisie tekst moeten kunnen begrijpen. Een erg stoutmoedige claim, en gelet op de uitleg die Facebook geeft ook volledig onterecht. DeepText is zeker een mooie sprong voorwaarts, maar laat ook zien dat computers nog een lange weg te gaan hebben voor ze menselijke taal, of in ieder geval tekst, net zo goed kunnen begrijpen als mensen zelf. Lees verder >>

Is de structuur van het Nederlands te complex voor computers om te produceren?

Onverwachte taalvragen aan de wetenschapsagenda (16)

Door Marc van Oostendorp

ChGqYx7XEAAscpdZestien taalvragen hebben een geheel eigen koepel gekregen in de Nationale Wetenschapsagenda: de vragen over de vraag of we computers beter met taal kunnen laten omgaan, de zogenoemde taaltechnologie. Zestien vragen van de elfduizend die oorspronkelijk door de Nederlandse bevolking zijn ingestuurd is niet zo veel –er zijn maar zo’n 140 koepels, dus gemiddeld tellen die zo’n 80 vragen– , dus er is iemand of iets geweest die of wat deze vragen heel belangrijk heeft gevonden. We zullen het nooit weten: het hele proces waarop is besloten welke vragen écht belangrijk zijn, is niet erg transparant.

Hoe dat ook zij, kennelijk zijn er mensen onder ons die zichzelf dingen afvragen als het volgende:

  • Is de structuur van het Nederlands te complex voor computers om te produceren? We hebben allemaal wel gemerkt dat er nog steeds geen computersystemen zijn waarmee we gewoon kunnen praten, en die apps waarbij je een vraag kunt stellen aan je telefoon zijn hooguit goed voor een dosis humor. Het Nederlands is ook wel erg ingewikkeld, onze zinnen kunnen rare afhankelijkheden hebben zoals: “dat wij Piet zijn auto zagen repareren” waarbij ‘zagen’ bij ‘Piet’ hoort, en ‘repareren’ bij ‘zijn auto’. Zijn er bepaalde soorten Nederlandse zinnen, zoals bijvoorbeeld deze, die gewoon echt te moeilijk zijn voor een computer, of zijn ze gewoon nog niet snel genoeg?

Lees verder >>