Episodi 101

MoniatoGPT

· 00h 44min

Un sorprenent tuit de Javi López, qui recreà una peculiar versió d'Angry Birds enterament amb eines d'intel·ligència artificial, inspira una conversa al voltant de com utilitzem ChatGPT i els models de llenguatge generatiu en general.

  • Mencionem eines com MacGPT, que et poden facilitar la interacció amb ChatGPT des d'una senzilla comanda del sistema operatiu.
  • També Aiko o MacWhisper, per crear transcripcions de manera local, sigui dictant o fent servir un fitxer d'àudio prèviament enregistrat.
  • Finalment, parlem de la ràpida i econòmica generació d'imatges en local de la mà d'aplicatius com Draw Things o DiffusionBee.
  • Malgrat tot, si encara vas molt perdut i no saps quines conjures invocar per aconseguir els resultats desitjats, dona-li una ullada a prompts.chat o lexica.art on ben segur trobaràs inspiració per educar les teves criatures artificials.

Una denúncia ciutadana contra el Halloween importat

L'Àlex torna d'unes minivacances sense saber res del món i el primer que fa en reincorporar-se és obrir la mini-secció de denúncia ciutadana. El greuge, oportú per les dates: que per una de les poques tradicions bones que tenim, la castanyada, acabem adoptant el Halloween, festa que copiem d'uns americans sense història que al seu torn van copiar els mexicans. Acusa els pares de crear el caldo de cultiu d'autèntics criminals, perquè el truc o tracte es basa en l'extorsió; la represàlia li surt rimada —«si fiques què collons trucotrato, aquí tens una castanya i un moniato»— i la reclama com a cançó per al seu grup, Res. Marc s'hi suma a mitges: també és anti-Halloween per la mandra d'importar tradicions de fora, tot i admetre que la majoria de tradicions catalanes li fan una mica de vergonya. De la castanyada en salva els moniatos i la ratafia, i proposa menjar-se les castanyes amb salsa, com els cargols.

Angry Pumpkins, un joc fet de cap a peus amb IA

Lligant-ho amb el Halloween, Marc porta el tema previst —els usos de ChatGPT— amb una història del cap de setmana. El Javi López, fundador d'Erasmusu (venuda a Spotahome), porta gairebé dos anys molt actiu amb IA generativa fent de guia de prompts de Midjourney. Amb el seu excofundador Emilio ha publicat Angry Pumpkins, una còpia d'Angry Birds en versió Halloween generada al 100% amb IA: els gràfics amb Midjourney (amb molt inpainting i uns retocs finals a Photoshop) i tota la programació amb ChatGPT. El codi —unes 600 línies, amb sistema de partícules per a les col·lisions— l'ha publicat obertament, amb la conversa sencera que el va anar generant i depurant. Va ser portada de Hacker News, amb gent del sector bocabadada que es fes en unes vint hores.

Marc matisa el «20 hores»: són poques perquè el Javi ja porta dos anys en això i sap per on tirar; qualsevol altre no faria ni una còpia del Tetris en aquell temps. La pregunta que li queda rondant és per on comences, si el prompt no pot ser «fes-me una còpia d'Angry Birds de Halloween».

Un plugin de Raycast com a prova que un principiant pot començar

Com a contraexemple, l'Àlex explica un mini projecte de la setmana anterior, nascut de la frustració d'haver abandonat la programació fa gairebé deu anys. Fa servir Raycast en lloc de l'Spotlight del Mac i li faltava un plugin que tenia a Alfred i que s'integrava amb Tyme, la seva eina de time tracking; el va replicar amb ajuda d'IA. De l'experiència en treu la recepta per a qui va perdut del tot: demanar a ChatGPT què vols fer i que et digui quines eines i llenguatges necessites i què instal·lar, dient-li el teu nivell perquè t'ho expliqui des de zero, amb l'avís que el coneixement s'atura el 2021. Ell hi va combinar la documentació oficial de Raycast amb ChatGPT per a peces com l'AppleScript per parlar amb apps del Mac. I remarca com ha canviat l'eina: abans havia de descriure-li l'estructura del projecte amb barres i pipes del teclat, i ara n'hi ha prou amb una captura de pantalla, també per als errors, que li passes i te'ls corregeix.

La teoria dels extrems amb GPT-3.5 i GPT-4

L'Àlex, que defineix la seva vida com una muntanya russa perquè les coses guapes passen als extrems, ho aplica a ChatGPT. A un extrem, el GPT-3.5, ràpid i quasi indistingible d'una cerca de Google; a l'altre, el 4, complex i a vegades més sofisticat del que necessites. Per atacar el ràpid fa servir un Siri Shortcut al Mac que pega contra l'API: amb Option+K (no Comando+K, que sol fer enllaç) li apareix un prompt per corregir text, traduir o resoldre tonteries. Com que la millor càmera és la que sempre portes a sobre, el millor ChatGPT és el que tens a un clic de teclat —i remarca que no és cap producte màgic com MacGPT: al final tot és una trucada a l'API amb la teva clau.

El vocabulari que et falta i com DALL·E 3 t'hi ajuda

La conversa deriva cap a la generació d'imatges, on per l'Àlex la gran barrera ha estat sempre el vocabulari: no sap demanar un estil cinematogràfic, una llum natural o un temps d'exposició perquè li manca el coneixement de la fotografia. Per això celebra que DALL·E 3 no s'agafi el teu prompt al peu de la lletra sinó com a proxy per redactar-ne un de millor i ensenyar-te'l. Recorda que aprenia Midjourney per força bruta, fitxant les converses d'altra gent per pescar el vocabulari mentre generava imatges per al blog i les presentacions de MarsBased; que l'eina et proposi alternatives és el que per fi pot enterrar la limitació de qui es reconeix inútil amb l'edició gràfica.

Models en local, enginyeria inversa de prompts i Lexica

La conversa explora trucs més avançats. Muntar-se els models en local, amb un ordinador raonablement modern, va molt més ràpid que generar online i instal·lar-los és facilíssim gràcies a aplicacions que fan de wrapper i te'ls baixen sense tocar terminal. Alguns tenen un botó d'«interrogar» que, donada una imatge, et torna el prompt que la generaria, una mena d'enginyeria inversa. Amb això pots anar a Lexica, un repositori d'imatges amb els seus prompts a la vista, trobar l'estil que t'agrada i reaprofitar-lo, o tirar d'imatge a imatge, com es fa per millorar-se els avatars.

Les eines que t'estalvien la vida amb SQL, regex i dades falses

Marc llista els seus usos més útils, els d'aquelles tasques que no fas sovint i que sempre t'obliguen a rellegir documentació. La primera que l'ha salvat és escriure queries d'SQL: li passa l'esquema de la base de dades, fins i tot el dibuixet, i li demana com treure tal cosa. La segona és màgia negra: els regex, que quan funcionen són com guanyar la Champions a l'últim minut i que a ell mai no li sortien. Hi suma la generació de dades falses per poblar bases de dades de prova i, tot i ser-ne escèptic, cada cop més la impersonificació amb prompts de prompts.chat —un repositori de GitHub amb centenars de rols— que sobreescriuen les instruccions del model; el favorit, el de crític de cinema, li recomana pel·lícules millor que Netflix.

Contractes, una llei americana i fer trampes als escacs

Quan Marc pregunta a l'Àlex pels seus últims usos, surten casos com revisar un contracte de lloguer per detectar clàusules no estàndard (un NDA de set o deu anys quan l'estàndard és de tres a cinc), un intent fallit de fer trampes al Rummikub de la seva parella, investigar el millor material per a un portaespelmes o depurar una instal·lació de Node.js. Marc hi posa els seus paral·lels: va resumir el Credit Card Act del 2009 —una web sense CSS, com escrita amb màquina d'escriure— per a una nova funcionalitat de RSS.com, amb una resposta llesta per enganxar a Slack; i, com a jugador d'escacs, passa les partides a ChatGPT perquè li digui on l'ha cagat, tot admetent que també serveix per fer trampes amb els moviments del rival. L'Àlex hi torna amb un contracte real: una proposta per a MarsBased que exigia auditar una regulació sobre digitalització de tiquets i factures; el client li va passar el BOE de 70.000 pàgines i, espès a la tarda, va deixar que ChatGPT li resumís si podia acceptar el projecte.

Viatges, Excels i transcripció d'àudio en local

L'Àlex tanca amb la planificació de viatges, on troba ChatGPT fenomenal: per a quatre dies a Albània li explica amb qui va, que volen mix de mar i muntanya i que es mouen amb cotxe, i si veu que plourà li demana plans indoor sobre la marxa; sempre s'ha de revisar per les al·lucinacions, però el 90% és excel·lent. L'Àlex hi suma les transformacions de CSV i d'Excel. Sobre la transcripció d'àudio, que a l'Àlex encara no li rutlla, Marc recomana dues apps que baixen el model de Whisper i transcriuen en local, MacWhisper (del mateix autor que MacGPT) i Aiko, amb un truc per a llengües minoritzades com el català: indicar-li l'idioma abans, perquè la detecció automàtica el confon amb l'italià o el castellà.

Cobertura exprés de l'esdeveniment d'Apple i el xip de 3 nanòmetres

Entremig surt la fascinació per la velocitat a què evoluciona tot això, que no avança a poc a poc com els ordinadors portàtils, ja convergits en un factor de forma estable. I, com a apunt, la cobertura llampec de l'últim esdeveniment d'Apple: un MacBook Pro negre molt maco que val una pasta, despatxat en vint-i-cinc segons. El que sí que mereixeria episodi no és l'esdeveniment sinó el que ha hagut de passar a la fàbrica per aconseguir els M3 de 3 nanòmetres, amb un procés completament diferent del de l'A17 Pro de l'iPhone, el primer xip de 3 nanòmetres; un tema que admeten que no interessa gairebé ningú, amb la broma que un el gravaria sol una nit de ressaca.

Escolta l'episodi