Episodi 90

Primer de filosofIA

4 de setembre 2023 · 00h 45min

Com formarem els joves programadors en un nou paradigma dominat per la intel·ligència artificial? Avui, episodi d'estiu a l'hora de la migdiada per entendre quant n'hi ha d'art i quant de ciència a l'hora d'entrenar models generatius.

Si fa dues setmanes era l'Adrià qui ens proposava l'anterior episodi, Primer d'inversió, en aquesta ocasió és en Martí — amic de Foc a Terra i co-host del pòdcast La Nova Mobilitat — qui ens suggereix el tema d'avui.
L'Àlex ens alliçona sobre com refinar els nostres "prompts" per obtenir millors resultats. Concretament, com aconseguir que els nostres ajudants virtuals sonin al ritme del Death Metal.

Un podcast de migdiada gravat a les quatre de la tarda

L'episodi arrenca amb una confessió horària: són les 3.47 de la tarda i un dels dos està en "mode eficiència", l'hora del dia en què el cervell li demana migdiada i només el deixa per a tasques de poca càrrega com contestar correus. L'altre explica que durant anys, quan vivia sol, va decidir per religió no posar-se mai reunions abans de dos quarts d'onze del matí, i que gairebé deu anys sense llevar-se d'hora li van curar l'insomni. De seguida bategen la sessió "podcast de migdiada", títol guanyat abans de començar. Tot i la son, s'imposen no dispersar-se: per una vegada el tema els l'ha demanat algú i volen fer-ho bé.

L'episodi que els demana el Martí de La Nova Mobilitat

El detonant és en Martí, el "cosí germà" del pòdcast La Nova Mobilitat, on tots dos van anar convidats la setmana anterior (l'episodi el van publicar també al feed de Foc a Terra). Hi anaven a parlar d'intel·ligència artificial dins dels cotxes —d'un Mercedes que et dicta la recepta de cuina mentre tornes a casa— i van acabar, fidels al costum, dilapidant-li el programa: el Martí duia un guió de set o vuit punts i en van tocar un de sol, en dues hores i quart, amb acudit de l'Eugenio inclòs.

Des de les vacances, en Martí els escriu encuriosit pel prompt engineering i els proposa un capítol sobre en quin moment es barregen la tècnica, la ciència i l'art en la programació. La conversa parteix d'aquí.

Com es diria «prompt engineering» en català

Abans d'entrar en matèria es barallen amb la traducció. Àlex, l'home dels catalanismes, hi proposa formes —entre "recepta" i "sol·licitud", potser "instrucció" o "petició"— i recorda que els termes tècnics tradueixen millor quan els canvies del tot el context: per a "prompt engineering" arrisca "enginyeria de terminal". Sense acord, segueixen amb l'anglicisme.

La definició que en donen per als no iniciats: un prompt és el text d'entrada amb què demanes coses a eines com ChatGPT o Midjourney, i el prompt engineering és l'art de dissenyar bé aquestes instruccions. Critiquen els "flipats" de Twitter que cada dia pengen fils amb "les deu aplicacions d'IA sense les quals no pots viure", apunyalant a fosques (stabbing in the dark) a base de prova i error.

Ensinistrar un gos o educar un aprenent

Apareix la metàfora central. Davant la idea que treballar amb IA s'assembla a ensinistrar un gos, Àlex proposa una imatge que li sembla més afinada: és més com educar un criu o formar un aprenent. Ho il·lustra amb una anècdota pròpia —quan començava a soldar circuits en unes pràctiques en una fàbrica de Terrassa, li havien d'explicar les coses tres o quatre vegades, i els caps donaven instruccions confuses i diferents cada cop—. La lliçó: si fas la pregunta equivocada, reps la resposta equivocada.

Reprenen un concepte d'episodis anteriors: tractar la IA com un "becari amb recursos infinits", un exèrcit de becaris poc llestos però amb accés a tot, que d'entrada no et sorprenen però que amb bones instruccions et lliuren un primer esborrany de la hòstia.

Les al·lucinacions i la pregunta mal feta

Un dels primers problemes a domesticar no és afinar la resposta sinó eliminar les al·lucinacions: quan el model s'inventa una cosa i, si no ho saps, et cola un gol per l'escaire. Recorden el cas que van viure en directe en un episodi, quan van preguntar a ChatGPT pel propi Foc a Terra i l'eina va assegurar que era un programa de Catalunya Ràdio presentat per Toni Clapés sobre la casta política espanyola.

El diagnòstic: preguntaven coses fora del seu abast, i com que el model està optimitzat per donar una resposta conversacional i no fàctica, la xerrameca cola. La defensa és senzilla: contrasta la veracitat de cada afirmació.

Donar context i personificar el model

La clau pràctica és el context. Si demanes "escriu una entrada de blog sobre inbound marketing", reps una entrada genèrica; si abans li dius "ets un professional dels blogs amb quinze anys d'experiència, treballes per a empreses americanes de producte B2B i t'especialitzes en inbound marketing", el model retalla el seu corpus als experts i el resultat és mil vegades millor. Convé especificar-ho tot —target, to, llargada, call to action— i, encara millor, donar-li exemples (com demanar països a prop del Kazakhstan amb emojis representatius). Recorden que les respostes mai són idèntiques perquè el model porta una llavor (seed) d'aleatorietat, i que ChatGPT estava entrenat amb dades fins al 2021 i sense accés a internet.

Marc remata la idea amb el seu exemple preferit: va crear un fil de ChatGPT perquè li fes de traductor d'anglès a "death metal English", aquell registre rebuscat i bombàstic de grups com Nile, Possessed o Cannibal Corpse —tot en majúscules, perquè xoca més. De fet, com més afinat sigui el prompt més pesa en un model generalista de dades quasi infinites; en un d'especialitzat i acotat (posem-ne un que només doni receptes) fins i tot un prompt genèric ja respon bé.

Un experiment en directe per automatitzar les notes de Foc a Terra

Marc planteja un cas pràctic seu: dedica un parell d'hores cada setmana a redactar les notes dels episodis i vol delegar-ho a un model alimentant-lo amb el feed d'RSS i la transcripció perquè en repliqui l'estil. Àlex avisa que amb ChatGPT és complicat —límit de tokens per prompt (uns cinc mil caràcters), sense memòria garantida— i que caldria una eina que accepti textos més llargs i tingui accés a internet, tot i que ChatGPT guanya per accessible. De passada, una pulla domèstica: el català que treu la transcripció de RSS.com és força dolent; recomana provar Happy Scribe.

El resultat seria un 90 % llarg de precisió, feina de becari, i a Marc ja li va bé: el que costa de debò és passar de zero a u, i corregir un esborrany mig fet sempre és més ràpid que començar de zero —a tots ens encanta esmenar la feina dels altres.

Què hauria d'estudiar avui qui vol ser programador

Marc li passa la pilota a Àlex —l'home que fitxa programadors—: si tinguessis un fill que vol ser programador, què li diries que estudiï? Àlex començaria per la lògica i la robòtica o l'electrònica simples (què passa quan acciones un interruptor, què és un bit), conceptes que un nen assumeix sense por. Després aniria a la part visual i interactiva —generar una web amb plataformes de drag and drop com Wix o Squarespace— i només llavors baixaria de nivell cap a Python o Ruby, i finalment a C o l'ensamblador.

L'ordre invers és l'error que recorda de la universitat: a la Pompeu van començar per C, amb reserva de memòria i mallocs, una "aberració" que va espantar molta gent que potser amb Python s'hauria enganxat. I al final gairebé ningú s'ha dedicat al que va estudiar, perquè el món es mou per web.

Midjourney i l'avantatge que perd el principiant

L'exemple que tanca el cercle és Midjourney. Àlex admet que no en treu bones imatges perquè li falta el vocabulari del sector: els que claven prompts magnífics escriuen amb conceptes de fotografia i arquitectura —distància focal, tipus de càmera, obturador, perspectiva cavallera, arcs dòrics o jònics—. No és que no els entenguis: és que ni saps que la paraula existeix, i sense la paraula el prompt és menys específic.

D'aquí una predicció: l'avantatge del principiant s'acaba. Ara que el mercat de prompts està saturat, els especialistes —els fotògrafs i il·lustradors que semblaven desplaçats— recuperaran el terreny perdut perquè dominen el llenguatge precís.

Per què Marc vol estudiar història i física, i el millor de la sala

Marc desfà un malentès: vol matricular-se en un grau o màster d'humanitats, però no per dominar millor el prompt engineering. La seva tesi és de fons —per entendre el món cal entendre com funcionen les persones que l'habiten (la història, recull de comportaments humans) i les lleis que el governen (la física, per què cau la poma de l'arbre)—. Té pendents els graus d'història i de física i confia a arribar-hi si no es mor abans.

Això el deixa tranquil sobre l'ofici: per entrenar l'exèrcit de becaris primer has de ser un gran programador, el millor de la sala, i saber quin és "l'obturador" del teu camp. El coneixement de base és el difícil i el que mana; el prompt engineering és l'accessori que s'aprèn en un bootcamp de tres dies. Àlex ho il·lustra amb Ironhack, on el rol més difícil de contractar de la seva vida va ser un professor de programació: era més fàcil ensenyar a programar un bon docent que trobar un bon programador que fos bon docent.

Compromís final: Marc es posa de deures redactar les notes d'aquest episodi 100 % amb una eina d'IA, a veure si passen el test de l'Àlex, i portar-ne la setmana vinent el resultat —es reserva els deu primers minuts del proper episodi per explicar-ho.

Escolta l'episodi