TheStrategy è il più autorevole Magazine a firma di specialisti accreditati in Digital Marketing iscritto in Tribunale. Inviaci i tuoi articoli e comunicati

Performance

Traduzione automatica, una tecnologia da sogno o pura utopia?

Traduzione Automatica

Né l’inglese né l’esperanto si sono affermate come lingue universali. Per comunicare in modo globale è ancora necessario ricorrere all’antica arte della traduzione. Ma gli immensi volumi di contenuti condivisi ogni giorno in Rete stanno mettendo la tecnologia della traduzione automatica al centro della questione.

Un modello di “conversazione neurale”

Sulla piattaforma ArXiv.org due ricercatori di Google, Oriol Vinyals e Quoc V. Le, presentavano in un articolo, pubblicato il 23 giugno 2015, un modello di “conversazione neurale”, riferendosi a un software in grado di chattare con un umano e di conversare di filosofia e morale. Un tipo estremamente sviluppato di intelligenza artificiale? A dir la verità, no. Per elaborare le sue risposte, questo software non riflette realmente, usa l’enorme database di Google.

I testi dei nostri siti web, così come quelli delle nostre conversazioni e dei nostri commenti vengono raccolti, classificati e ponderati in base alla loro frequenza, al fine di far emergere il pensiero dominante del web che verrà poi ripetuto agli interlocutori. L’effetto finale è suggestivo. «Ma quel software non è in grado di creare nulla» spiega François Yvon, direttore del Limsi (Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur) di Orsay. «Non è in grado di produrre nessun contenuto originale». E ha ragione: il software – un “chatbot” – non è tanto il frutto delle ricerche sull’intelligenza artificiale, quanto un prodotto di studi legati alla traduzione automatica dei testi. Un campo di ricerca antico, nato dall’iniziativa del matematico Warren Weaver all’indomani della Seconda guerra mondiale. Ai tempi, l’obiettivo era di facilitare lo spionaggio americano sui russi, automatizzando i processi di traduzione da una lingua all’altra. Il 7 gennaio 1954, grazie a una collaborazione tra Ibm e Università di Georgetown, i ricercatori riuscirono a tradurre in modo automatico 60 frasi dal russo all’inglese. A quel tempo le possibilità di azzeccare i significati e le intenzioni giuste erano limitate dalle capacità del computer, che “conosceva” solo 6 regole grammaticali e 180 parole.

Traduzione Automatica
Traduzione Automatica

I ricercatori, ottimisti, ritenevano che ci sarebbero voluti fra i tre e i cinque anni per sviluppare un traduttore automatico dalle buone performance. L’obiettivo, ambizioso, comportò un enorme sforzo finanziario per il governo americano. Un sostegno durato più di dieci anni e interrotto nel 1966, dopo la sentenza dell’Alpac (Automatic Language Processing Advisory Committee), commissione di esperti incaricata di valutare l’evoluzione del progetto, che non avrà mai successo.

Il problema non è la quantità di traffico che riusciamo a totalizzare e canalizzare quanto la capacità di convertirlo in azioni concrete

Massimiliano Vigilante

«Per gli scienziati il problema si era rivelato ben più complesso del previsto, e si sviluppava su tre livelli» sottolinea il direttore del Limsi. Innanzitutto era necessario riuscire a scomporre le lingue. Poi occorreva tradurre correttamente ogni parola. Per esempio, le parole take o car, in inglese, possono assumere una moltitudine di significati differenti a seconda del contesto. Infine, bisognava ricostruire la frase nella nuova lingua, consapevoli che le strutture a volte sono completamente differenti. «Per decenni gli studi non hanno fatto passi avanti perché i ricercatori cercavano cli affrontare questi problemi complessi attraverso l’utilizzo di dizionari e di regole grammaticali» spiega Yvon. Si dovette aspettare la fine degli anni Ottanta per giungere a una svolta. Nei laboratori Ibm i ricercatori riuscirono a creare un sistema di riconoscimento vocale in grado di trasformare la lingua parlata in testo scritto, usando un approccio statistico basato sull’analisi di database linguistici. Invece di scrivere in maniera precisa quello che la macchina percepiva, il software scriveva ciò che aveva probabilmente inteso. Una sfumatura che, negli anni a seguire, rilanciò le ricerche sulla traduzione automatica. Da quel momento in poi, sono cambiate le premesse: non si traduce più partendo dalle regole di grammatica e sintassi, bensì attingendo a una banca dati di parole, testi, espressioni, che si arricchisce ogni giorno di più. Nel 2004 Franz Joseph Och convinse Google della validità di questo approccio, detto statistico.


Per un software è difficile capire le sfumature di significato

«Molte frasi usate su Internet sono stereotipate, espressioni che un software può riconoscere in modo da poterne prevedere il completamento» continua François Yvon. Inizialmente Google utilizzava questa metodologia di traduzione per elaborare gli indici dei siti, ma i risultati erano scarsi e poco comprensibili. Per immaginare di offrire un servizio di traduzione utile e gradevole per le persone, occorreva ampliare la banca dati, ed è ciò che Google ha fatto processando quotidianamente centinaia di lingue. E stato così possibile sviluppare software che, oggi, integrano statistiche e regole.

Sebbene siano stati fatti grandi progressi, sono ancora tanti gli ostacoli da superare. Innanzitutto alcune espressioni, rare o poco frequenti nel contesto scritto, vengono quasi sempre scartate. Per esempio, “stare in coIonna”, particolarmente diffusa nella forma orale nell’ambito della circolazione stradale, è incomprensibile per un traduttore automatico. Google Translate la traduce erroneamente con “stand column”. Google attinge, come principale database, all’immenso corpus di testi inglesi tradotti in varie lingue. Risultato: per tradurre per esempio dal francese all’italiano, il motore di ricerca passa dall’inglese come lingua pivot, e successivamente all’italiano, generando svariate stranezze e controsensi.

Traduzione Automatica
Traduzione Automatica

Un compito arduo, anche per Google

«La lingua non è un insieme omogeneo» commenta François Yvon. «Non si tratta di un tutto. È frammentata, composta da una moltitudine di registri, di livelli linguistici, attraverso i quali passiamo mentalmente». Il verbo “giudicare” avrà quindi un senso in un contesto quotidiano e un altro nel mondo giuridico. «Per il software, questa sfaccettatura è difficile da percepire» continua il direttore del Limsi. Inoltre, per utilizzare i metodi statistici, è necessario poter accedere a una moltitudine di testi tradotti con precisione nelle lingue d’interesse. La maggior parte di quei testi è di carattere giuridico, tecnico, medico o letterario e usa registri molto particolari. È ancora difficile lavorare sulle sfumature tra le diverse tipologie di testo nelle lingue più parlate, quali inglese, spagnolo, francese, e diventa pressoché impossibile se vogliamo una buona traduzione automatica di lingue minoritarie, come dal turco al coreano. Il database dal quale attingere è oggi ancora troppo piccolo. Il compito è arduo anche per Google, che «ha accesso a tutti i dati del mondo ma che in realtà non ha inventato nessun metodo di traduzione» afferma Hermann Ney, direttore del dipartimento di Scienze informatiche della RWTH Aeechen University (Università tecnica della Renania Settentrionale – Vestfalia). «Alcuni gruppi di ricerca nel mondo accademico – come la Fondazione Bruno Kessler a Trento, il Limsi a Parigi, la University of Southern California a Los Angeles, la Carnegie Mellon University a Pittsburgh – o industriale, quali Ibm, Bbn Technologies e Microsoft, hanno raggiunto livelli simili a Google». Pur non avendo accesso ai dati di Google, questi centri sono competitivi in termini di metodologia e di ricerca. Dal canto suo, il gigante di Mountain View non esita a far ricorso alla comunità di internauti per arricchire i suoi dati con Google Translate Community. In aggiunta, una commissione Iso sta lavorando alla definizione delle regole universali per la descrizione di tutte le lingue del mondo.

I risultati sin qui raggiunti sembrano sufficienti per favorire il trattamento dei testi scritti. Ma c’è ancora molta strada da fare in merito alle traduzioni simultanee vocali. Sono due le principali criticità: le differenze tra il lessico scritto e orale, e il riconoscimento da parte del computer della voce e delle parole pronunciate. Si notano piccoli progressi su diverse piattaforme, quali Skype Translator, che, nel marzo 2014, ha tradotto in tempo reale le conversazioni di due internauti, uno spagnolo e l’altro inglese. Altre, come Voxalead e Quaero sono sempre più abili nell’effettuare l’indicizzazione dei video in base ai loro contenuti audio. Se la traduzione automatica non è ancora parte del nostro quotidiano, i progressi nel settore sono comunque reali.


Articoli simili
Performance

Hotel Villa Bonelli, un hotel in centro a Fiesole, si affida a Mailtarget per lanciare una campagna di Email Marketing Certificata

Performance

DigitalSuite Italia, specialista in piattaforme digitali, affida a Mailtarget la sua nuova campagna pubblicitaria

Performance

Quality Form, consulenza e progettazione per aziende, collabora con Mailtarget per una Campagna di Email Marketing Certificata

Performance

Perchè è importante affidarsi al Marketplace di contenuti

Leggi anche...
Browser, navigare il Semantic Web: cosa è e a cosa serve