Google presenteert Google Neural Machine Translation

Google kwam in september met groot nieuws over hun online vertaalservice. Google Translate, dat ondertussen tien jaar bestaat, zal een nieuwe methode voor automatische vertalingen gaan gebruiken. Het nieuwe systeem, Google Neural Machine Translation (GNMT), is voorlopig alleen beschikbaar voor het taalpaar Engels-Chinees.

GNMT zal geleidelijk aan het huidige systeem, Phrase Based Machine Translation (PBMT), vervangen. Net als PBMT, baseert GNMT zijn vertalingen op een corpus van door mensen vertaalde teksten. Het verschil zit hem in de manier waarop de systemen leren.

PBMT verdeelt een tekst in woorden of woordgroepen en linkt die aan het equivalent in de vertaalde tekst. Als je een tekst ingeeft, zoekt de huidige Google Translate naar de link die het vaakst in het corpus voorkomt. Dat levert soms goede vertalingen op, maar vaak ook niet. Het werkt in ieder geval beduidend beter dan zijn voorganger, Syntax Based Machine Translation: computervertalingen die gebruik maakten van taalregels die door mensen geprogrammeerd werden.

Google Neural Machine Translation

Google belooft nog betere resultaten met GNMT, dat tot 85% minder fouten zou maken. GNMT is de toepassing van deep learning (articifiële neurale netwerken) op computervertaling. Concreet wil dat zeggen dat een groter deel van het leerproces aan dit systeem wordt overgelaten. GNMT kan meer leren omdat het meer kan onthouden. PBMT vertaalt woordgroep per woordgroep, zonder daarbij rekening te houden met context buiten die woordgroep. Wanneer GNMT het einde van een zin analyseert, weet het nog waar de zin begon. Het systeem bouwt bijvoorbeeld tijdens het vertalen van Nederlands naar Engels dus verder op wat hij al weet, tot het aan het einde van de zin komt. Het vertaalt in principe dus hele zinnen, en dat door de betekenis van de zin te “begrijpen” en dan in de andere taal weer te geven.

Deze vooruitgang in computervertaling is niet het exclusieve werk van de onderzoekers bij Google. Taalkundigen gebruikten al langer neurale netwerken, maar slaagden er vooralsnog niet in om die snel genoeg te laten werken voor online vertalingen. Dat Google dat nu kan doen, heeft vooral te maken met technische vooruitgang. Zij kregen genoeg rekenkundige kracht bij elkaar om binnen een enkele seconde via neurale netwerken te vertalen.

Wat met echte intelligentie?

Telkens als er vooruitgang geboekt wordt in de automatische vertaling, rijst de vraag of we binnenkort zonder menselijke vertalers kunnen. Momenteel is dat quasi een retorische vraag. We hebben absoluut nog vertalers nodig. We zullen steeds betere tools krijgen, maar dat zijn hulpmiddelen. Ze kunnen mensen niet vervangen.

Zo maakt GNMT nog steeds “domme” fouten: het vertaalt namen letterlijk en kan moeilijk om met zeldzame woorden. En hoewel het al beduidend meer context mee in beschouwing neemt, kan het systeem nog steeds niet verder lezen dan één zin.

Google vroeg tweetalige proefpersonen om een menselijke vertaling, een vertaling door PBMT en een vertaling door GNMT te beoordelen. GMNT scoort in die testen beter dan PBMT en iets slechter dan vertaling door mensen. De beoordelingen verschillen echter van taalpaar tot taalpaar. GNMT boekt de grootste vooruitgang voor taalparen waar veel verbetering nodig was, zoals Engels-Chinees. Waar PBMT het al goed deed, is de verbetering merkbaar, maar kleiner.

Slimme computers

GNMT is beter, maar het is niet perfect. Het is nog niet duidelijk hoeveel verbetering er mogelijk is, maar het is wel duidelijk dat die van de artificiële intelligentie zal komen. We weten niet genoeg over taal om het “gewoon” te programmeren (taal is daar ook veel te complex voor). Computers zijn betere vertalers als ze het zelf mogen leren.

Jessica De Boeck is taalkundige, communicator en stagiaire bij het online taalplatform bab.la. Ze houdt van taal, van nagellak en van haar zussen. Het liefst wil ze “iets gaan doen” in de overheidscommunicatie.

Sebastiaan Kunst

Sebastiaan Kunst is een ervaren vertaler Engels en schrijft regelmatig blogs over de Engelse taal en cultuur en aanverwante zaken.