Le due più popolari innovazioni tecnologiche [en, come i link seguenti, se non diversamente indicato] del progetto OpenAI, ChatGPT e DALL-E2,[it] hanno suscitato molta attenzione da parte degli utenti dei media e dei social. Nell'ambito dei diritti digitali, della tecnologia e del giornalismo proseguono le discussioni in merito a cosa si possa ottenere con queste tecnologie, quali lavori potrebbero venire sostituiti, come gestire le questioni di copyright e come queste tecnologie potrebbero amplificare i pregiudizi esistenti.
Global Voices ha fatto delle prove con DALL-E2, il generatore AI di immagini, per vedere come generasse immagini secondo descrizioni in lingue differenti. Abbiamo digitato in nove lingue diverse la stessa frase: “Dipinto ad olio di una donna triste controluce alla finestra“.
Ecco i risultati:
Inglese
Spagnolo: Pintura al óleo de la sombra de una mujer en duelo ante la ventana
Ceco: Olejomalba stínu truchlící ženy u okna
Russo: Картина маслом силуэт скорбящей женщины у окна
Indonesiano: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela
Cinese semplificato: 窗边悲痛女人的影子油画
Kazaco: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi
Uzbeko: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi
Malayalam: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്
È chiaro come alcune di queste immagini differiscano notevolmente dalla richiesta originale. Potrebbe trattarsi di dati insufficienti nelle lingue originali. Come spiegano gli inventori di DALL-E in un'intervista a Tech Crunch, il modello su cui opera è denominato CLIP (Contrastive Language-Image Pre-training). CLIP è stato testato su 400 milioni di coppie di immagini con testi estrapolati [it] da internet. OpenAI riporta sul suo sito:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
GPT-3 ha dimostrato che la lingua può venire utilizzata per istruire una ampia rete neurale ad eseguire una varietà di compiti generati da un testo. Image GPT ha dimostrato che lo stresso tipo di rete neurale può venire parimenti utilizzata per generare immagini ad alta fedeltà. Abbiamo esteso questi risultati per dimostrare che è ormai possibile manipolare concetti visuali grazie al linguaggio.
“Viviamo in un mondo visuale,” dice Ilya Sutskever, capo degli scienziati di OpenAI, in un'intervista a MIT Technological Review:
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
Sul lungo termine avremo modelli che comprenderanno sia il testo che l'immagine L'Intelligenza Artificiale sarà in grado di comprendere meglio le lingue perché sarà in grado di comprendere cosa significhino parole e frasi.
Poiché da lingue diverse sono risultati esiti diversi, sembra che il punto focale di questa estrapolazione in rete su cui lavora il modello utilizzi soprattutto le lingue più parlate, come l'inglese o lo spagnolo, ma non lingue meno ovvie.
Di conseguenza, molte immagini di internet con una descrizione in uzbeko o malayalam non erano presenti nei dati originali con i quali è stata addestrata l'intelligenza artificiale. Se il modello intende operare con un maggior numero di lingue dovrà focalizzarsi sull'addestramento con immagini descritte in lingue diverse dall'inglese. In caso contrario gli utenti del Kazakhistan continueranno a ricevere immagini di cibi anziché di una donna, e gli utenti di lingua malayalam riceveranno immagini di natura. L'immagine basata sulla lingua russa è piuttosto sessualizzata. L'immagine risultante dall'indonesiano rappresenta diverse ragazze sedute, e quella dal ceco vince il premio per l'originalità della rappresentazione, con una caraffa d'olio in primo piano. Le immagini basate sul cinese semplificate sono assolutamente spaventose.
Ovviamente non possiamo asserire, basandoci su questi dati, che OpenAI sia razzista. Ciò che possiamo vedere è che non ha ricevuto dati a sufficienza in lingua non inglese. Ora, non possiamo sapere se resterà così, ma raccomandiamo fortemente che non lo faccia.