Lost in translation: perché Google Translate molto spesso sbaglia la traduzione dello yoruba (e di altre lingue)?

Gruppo di utenti di Wikimedia in Nigeria, ottobre 2018 via Wikimedia Commons CC.BY.2.0.

Sin dall'inizio dell'era di internet, la lingua inglese ha dominato il dialogo sul web in qualità di lingua “universale” della comunicazione. Secondo WebTech3, nel febbraio 2020, oltre la metà [it] dei siti web era in inglese.

Tuttavia, il costante aumento degli utenti di internet non di madrelingua inglese ha innescato una rivoluzione linguistica digitale: l'accesso immediato alle traduzioni in inglese di lingue differenti tramite un semplice clic.

Di recente, molte aziende del settore tecnologico si sono impegnate nel documentare parole non inglesi su internet, aprendo la strada alla digitalizzazione multilingue. Google [en, come tutti i link seguenti, salvo diversa indicazione], Yoruba Names, Masakhane MT e ALC sono alcuni esempi di aziende e start-up che hanno cercato di far sposare la tecnologia con le lingue diverse dall'inglese.

A fine febbraio 2020, Google ha annunciato che avrebbe aggiunto cinque nuove lingue ai suoi servizi di Google Translate, tra cui kinyarwanda, uighur, tatar, turkmen e odia, dopo una pausa di quattro anni nell'aggiunta di nuove lingue.

Uomo perplesso mentre legge un testo su internet. Foto di Oladimeji Ajegbile, open source via Pexels.

Ma avete mai usato la funzionalità di traduzione di Google rendendovi conto che la traduzione in inglese è, nella migliore delle ipotesi, a malapena accettabile e, nella peggiore, decisamente imprecisa?

Sono molte le controversie e le difficoltà quando si tratta di fare un lavoro di traduzione e di accesso linguistico di questo tipo.

Twitter offre la traduzione da yoruba a inglese tramite Google Translate il più possibile e, di solito, il risultato non è del tutto negativo (forse alcune parole sono corrette).

La ragione di queste difficoltà sta nel fatto che le aziende di tecnologia, di solito, raccolgono i dati linguistici per la traduzione in inglese su internet. Questi dati possono funzionare per alcune lingue, ma per altre come lo yoruba e l'igbo, due delle lingue principali della Nigeria, presentano delle sfide, a causa dei segni di accentazione inadeguati o imprecisi, che servono ad indicare il tono di tali parole.

Per spiegare come mai Google ha impiegato quattro anni per l'aggiunta di cinque nuove lingue, un portavoce dell'azienda ha dichiarato:

 Google Translate learns from existing translations found on the web, and when languages don’t have an abundance of web content, it’s been difficult for our system to support them effectively. … However, due to recent advances in our machine learning technology, and active involvement from our Google Translate Community members, we’ve been able to add support for these languages.

Google Translate impara dalle traduzioni esistenti sul web. Perciò, quando non ci sono molti contenuti web in una data lingua, è difficile per il nostro sistema supportarla in modo efficace. Tuttavia, grazie ai recenti progressi nella nostra tecnologia di apprendimento automatico e al coinvolgimento attivo dei membri della community di Google Translate, siamo riusciti ad aggiungere anche queste lingue a quelle supportate.

Inoltre, la maggior parte delle persone non è molto brava con l'ortografia (o lo spelling) in queste lingue. Di conseguenza, non vengono elaborate buone traduzioni perché questi errori non sono contrassegnati come traduzioni inadeguate.

La maggior parte delle traduzioni eseguite dalle macchine rende in maniera errata alcune parole, in particolare quelle che hanno sfumature culturali. Ad esempio, in yoruba il significato delle parole ayaba e obabìnrin è legato ad un particolare contesto culturale. La maggior parte delle macchine traducono entrambe le parole come “regina”. Tuttavia, da un punto di vista tradizionale e culturale, è fondamentale evidenziare la differenza di significato tra ayaba e obabìnrin: obabìnrin significa “regina”, mentre ayaba è “moglie del re”.

Anche con queste complicazioni nella traduzione, la tecnologia è stata d'aiuto per l'avanzamento delle lingue africane nei contesti digitali, stimolando la creazione di neologismi. Con l'afflusso di nuovi apparecchi come smartphone e tablet, le lingue africane si sono sviluppate: infatti, per dare un nome a questi nuovi strumenti e concetti tecnologici, sono nate delle nuove parole. Tale processo ha quindi ampliato l'utilizzo e la funzionalità di queste lingue.

Con l'emergere di nuove tecnologie, i vocabolari di molte lingue africane sono diventati più sofisticati. Ad esempio, nella lingua yoruba alcune parole sono di derivazione tecnologica, come erọ amúlétutù (“condizionatore”), erọ Ìbánisọ̀rọ̀ (“telefono”) ed erọ Ìlọta (“macina”). Allo stesso modo, il linguaggio igbo include parole come ekwè nti (“telefono”) e ugbọ̀ àlà (“veicolo”). Queste società hanno dato dei nomi ai vari apparecchi in base alle funzioni da essi svolte.

Nei corsi sulle telecomunicazioni e la pubblicità in yoruba, gli studenti imparano che la maggior parte delle persone chiama la TV er Amọhùnmáwòrán. Questo neologismo genera molte domande e opinioni: alcuni studenti sostengono che anche videocamere e registratori possono essere chiamati erọ amóhùnmáwòrán in base alle loro funzionalità.

Queste sfide linguistiche in ambito tecnologico sono salutari per le lingue, poiché stimolano il pensiero critico volto al progresso sia linguistico che tecnologico.

Nel 2019, Google ha aperto il suo primo centro di ricerca sull'intelligenza artificiale ad Accra, in Ghana, incentrato, secondo la CNN, sul miglioramento della “capacità di Google Translate di acquisire in maniera più precisa le lingue africane”. Come riportato dalla CNN, il ricercatore Moustapha Cisse, a capo dei progetti di Google sull'IA in Africa, ritiene che “un continente con oltre 2000 dialetti meriti un servizio migliore”.

Mozilla e BMZ hanno recentemente annunciato la loro collaborazione per estendere la tecnologia vocale alle lingue africane. Grazie a iniziative come questa, il futuro riserva sicuramente molto altro in tema di studi sulle lingue africane.

avvia la conversazione

login autori login »

linee-guida

  • tutti i commenti sono moderati. non inserire lo stesso commento più di una volta, altrimenti verrà interpretato come spam.
  • ricordiamoci di rispettare gli altri. commenti contenenti termini violenti, osceni o razzisti, o attacchi personali non verranno approvati.