Les màquines no pensen
Les màquines no pensen. Aquesta afirmació és certa ara mateix, a finals d'agost, principis de setembre, de 2024. Els sorprenents i meravellosos avenços en el camp de la intel·ligència artificial (IA) dels darrers mesos, el desconeixement general sobre com funciona, i aquesta paraula "intel·ligència" en la nomenclatura de les eines, fan que moltes persones es confonguin. No, les màquines no pensen, però ho dissimulen molt bé.
En informàtica, tot sol tenir un inici molt simple. Després es van creant capes més complexes a partir de les capes anteriors. Més capes, més capes, més capes, i al final es perd de vista l'origen de tot, però segueix estant-hi.
Prenem com a origen aquesta frase: "Estan tot el dia com a gat _ gos."
Si la teva llengua materna és el català, o la coneixes bé, no et resultarà complicat omplir el forat. Fins i tot si el teu idioma és un altre, només cal traduir el text i omplir el forat en el teu idioma. Si li demanes a un ordinador que ompli el forat, no sabrà què fer. Si li dones tots els caràcters que existeixen i li dius que ompli el forat amb alguns d'ells mitjançant un programa, acabarà provant totes les combinacions, i sí, en una d'aquestes combinacions hi posarà una "i", però per simple probabilitat. Un ordinador mai no sap què està fent.
Un bon dia, es van plantejar com un programa podria trobar la combinació correcta per completar qualsevol text donat, al qual li faltés una part. Suposo que les discussions van ser llargues i avorrides, però al final van arribar a un parell de conclusions: els humans sabem què posar perquè coneixem l'idioma i ens han ensenyat com expressar en text les idees. Així que, si volien que una màquina omplís l'espai en blanc, havia de simular ambdues coses.
Per solucionar el primer problema, van decidir proporcionar al programa la màxima quantitat de textos possible.
Però el segon problema és impossible per a una màquina, ja que no és capaç de captar el concepte d'"idea". La solució que van trobar va ser deduir el que falta estadísticament. És molt més complex, però resumint: el programa buscarà totes les combinacions semblants en els textos que se li han donat, recuperarà els caràcters que s'utilitzen habitualment en aquests textos, els quantificarà, i aquella opció que tingui un percentatge més alt d'ús és la que triarà.
En la frase d'exemple, després de buscar entre tots els textos proporcionats, segurament obtindrà un resultat del tipus:
- i: 96%
- y: 2%
- o: 1%
- u: 1%
I aleshores respondrà: "Estan tot el dia com gat i gos."
A aquesta manera d'actuar l'anomenem IA i no programació, perquè la programació conté un conjunt de processos prèviament pensats, programats, i a partir de l'entrada de dades, aquests processos s'executen i es dóna una resposta. Si en l'entrada de dades hi ha alguna cosa que no està prevista, la programació donarà un error. Per tant, el nombre d'opcions sempre és finit. En canvi, per solucionar el problema de la nostra frase, necessitem tractar opcions (gairebé) infinites. Així que s'ha creat un sistema perquè la màquina "pensi" (en realitat són càlculs matemàtics complexos) per ella mateixa en totes les combinacions infinites; en realitat són finites, però superen amb escreix les que un humà pot programar. Les avalua i dóna una resposta.
Més capes. Si només l'alimento amb textos en català, tinc dos problemes: que qui parla un altre idioma no podrà accedir-hi, i que, si els textos són en català, la cultura intrínseca en ells serà hispana. Un exemple: per als hispanoparlants, un gat té 7 vides, mentre que per a un anglosaxó en té 9. Així que, si un anglosaxó pregunta per les vides d'un gat, i la IA respon que en té 7, pensarà que és un error. La solució és afegir textos en tots els idiomes i una capa de traducció. Més capes, més capes, més capes...
Ens hem acostumat als xats conversacionals, on preguntem alguna cosa i la IA respon. Com ens entén? La resposta és afegir una altra capa més. A les capes base se'ls ha d'afegir una capa la funció de la qual és entendre una pregunta. Les preguntes tenen una estructura determinada: comencen per "¿" en alguns idiomes, però en tots inclouen pronoms interrogatius, un verb... i acaben amb "?". Una vegada que aquesta capa determina què s'està preguntant, realitza la cerca i dóna una resposta. Un exemple: davant la pregunta "On va néixer Cristòfor Colom?", deduirà que volem saber el lloc de naixement ("on va néixer") d'un tal Cristòfor Colom. Buscarà en els textos proporcionats i donarà un resultat semblant a:
- 75% Gènova
- 15% No se sap
- 5% Catalunya
- 3% Galícia
- 2% Lisboa
I ens respondrà: "Cristòfor Colom va néixer a Gènova." En aquest exemple intento destacar que a la IA li és igual Lisboa que Gènova; simplement respon allò que és més habitual en les seves fonts.
Així, anirem incrementant tantes capes com necessitem per fer el més natural possible la conversa entre l'humà i la IA, però aquesta continua sense pensar.
Un altre model són les IAs que generen imatges. Suposem que volem una IA que generi imatges de gossos, així que la IA ha d'aprendre què és un gos, però no pot. La solució torna a passar de nou per capes i estadística.
Una capa aprendrà a comparar. L'entrenarem fins que sigui capaç, mitjançant els seus propis càlculs estadístics, d'identificar el 100% de les vegades que li passem una imatge d'un gos, sense importar-ne la raça, pelatge, mida, color... i descartarà totes les imatges que no siguin gossos.
Una altra capa generarà imatges. El sistema és complicat i evolucionen molt ràpidament, però simplificarem dient que va provant. Una vegada té una prova acabada, per exemple d'un gos, la passa a la capa anterior, i aquesta li diu: "No, això no és un gos." Així entrem en un bucle, que acaba quan li confirmen que ha generat un gos.
Vídeo? Hem d'entendre que un vídeo no és més que imatges acumulades. És molt més complex, perquè en un vídeo les imatges donen la sensació de moviment. Això significa que els objectes de la imatge han de començar en una posició i acabar en una altra. Així que cal tenir capes que identifiquin on comença el moviment, on acaba, i combinar-les amb les que generen imatges perquè creïn noves imatges intermèdies entre l'inici i el final d'aquest moviment. Tot això es realitza amb estadística i probabilitats. A més d'aquestes capes de moviment, en necessitem altres de llums, ombres, colors... Tot ben barrejat ens proporcionarà un vídeo.
Veu? Música? En definitiva, són sons, i des de fa molt de temps sabem "dibuixar" el so en gràfiques d'ones sonores. Igual que altres IAs són capaces d'identificar imatges (gossos, gats, cases...), en aquest cas necessitem que identifiquin síl·labes dins de les ones sonores, i de nou, mitjançant estadístiques i probabilitats.
Segurament haureu vist aquests vídeos on es pot fer dir qualsevol cosa a un personatge. Només cal anar barrejant capes i més capes. Es pren IA de vídeo per un costat, IA d'imatges per un altre, però que només mogui la boca del personatge, IA de so per capturar la modulació, to i ritme de la veu del personatge, i una altra IA de so perquè transformi el que es diu un text i ho reprodueixi amb el to, ritme i modulació de veu del personatge. No és simple, però ho barregem tot i ja tens un deepfake.
Ara mateix, els estudis en aquest camp avancen tan ràpidament que, per a cadascun d'aquests processos, on potser fa uns mesos necessitàvem setmanes per fer un pas, ara ho fem en segons. En reduir el temps de generació de cada pas, es pot anar afegint cada vegada més complexitat al resultat i també es poden simplificar els requisits necessaris per executar el que volem. Spielberg va necessitar mesos i immensos ordinadors per generar els dinosaures de Jurassic Park, en canvi ara pots demanar un dinosaure ballant a qualsevol generador i en uns pocs minuts tindràs el que desitges.
Així que fins fa poc, per distingir què era real o no, ens basàvem en la font d'on provenien les dades, qui ens informava, i com a molt podies dubtar si era natural o estava preparat. Ara, la IA ens proporciona contingut 100% realista que mai no ha existit. La dona del vídeo l'he creat amb una frase i quatre minuts d'espera.
Sent una creació humana a l'abast de qualsevol, poden ser dades correctes, però també pot haver-hi un error o mala fe que corrompi la informació que ens proporciona, però serà indistingible de la realitat.
L'únic punt d'inflexió el marca l'ètica de qui ens proporciona les dades. Malauradament, els propietaris de les IAs són empreses privades, i la seva única funció és guanyar més diners, no l'ètica. Tampoc hem d'oblidar els estafadors de tota la vida, als quals cal afegir el nombre cada vegada més gran d'idiotes per metre quadrat. I cap dels tres dubtarà a infotoxicar-nos.
La IA no pensa, no és màgia, és simple tecnologia, però mal portada, ens farà la vida impossible.
Imagen creada con Dream Machine 1.5 a través de Luma
Comentaris
Publica un comentari a l'entrada