Episodi 98

IA algú a casa?

23 d'octubre 2023 · 00h 43min

Una mirada al passat ens revela que noves eines solen venir acompanyades de tecnologies revolucionàries. És per aquest motiu que la intel·ligència artificial i els models de llenguatge generatiu ens vaticinen un futur que s'assemblarà més a la pel·lícula Her que no pas a Ready Player One.

Com dèiem, les pel·lícules que inspiren l'episodi i cada dia informen una mica més la realitat són Her i Ready Player One. Dues obres imprescindibles que no poden faltar a la filmoteca dels amants de la ciència-ficció.
Parlant de productes avançats als seus temps, mencionem General Magic i el seu recomanable documental; Magic Leap i les seves ulleres de realitat augmentada; i finalment, la contemporània Hu.ma.ne, que presentà el seu pin a la setmana de la moda de París.
Recentment, OpenAI anunciava que ja podem tenir converses de sobretaula i comentar imatges de gatets amb ChatGPT.
Malgrat que no tenim molt clara la seva traducció al català, el concepte de suspension of desbelief vindria a explicar la voluntat expressa de suspendre el pensament crític sobre un fet irreal, amb l'objectiu de gaudir de la seva narrativa. Si no ens hem explicat bé, aquest vídeo t’ajudarà a entendre-ho millor.

Tres hores dins el forat de conill del ChatGPT Plus

Setmana sense convidat i episodi especial: Marc porta un cas en tres parts i la conversa es va construint sobre ella mateixa, amb l'Àlex validant o discrepant a cada bloc. Però abans d'arrencar, l'Àlex confessa la seva pròpia tangent: el dia abans, en comptes d'anar a Startup Grind, es va ficar en un forat de conill del ChatGPT Plus i hi va estar tres hores provant plugins, navegador i anàlisi de dades. Una de les coses que va fer va ser passar-li els dos articles que Marc li havia enviat perquè els hi resumís, i va al·lucinar amb els punts «ben parits», amb citacions i tot.

Tots dos coincideixen que és el «becari perfecte»: un exèrcit de becaris amb temps infinit que no es queixa, no protesta i et torna la feina. L'Àlex hi troba un munt d'usos —recuperar queries d'SQL que tenia oxidades, generar regex sense barallar-s'hi— i admet que el que de debò està entrenant no és la IA, sinó ell mateix a fer-la servir cada dia des del gener.

El futur s'assembla a «Her», no a «Ready Player One»

Marc planteja el cas central, en clau de «cunyat, analista de bar»: fins ara ens pensàvem que el futur seria com «Ready Player One» —metavers, realitat virtual—, però ell defensa que anirà més per la pel·lícula «Her». Tots dos l'han vista; Marc s'emociona recordant la frase final en què ella li diu que la vida amb ell és com un llibre on la separació entre lletres és infinita, una línia que, diu, ja justifica veure la pel·li.

Menys fricció i cada cop més a prop del cos

Marc obre el primer bloc amb una mirada al passat: dels mainframes a les universitats, als ordinadors personals, a les webapps i al mòbil. Cada canvi de paradigma arriba de la mà d'una tecnologia fundacional —el processador va portar el mainframe, el circuit integrat l'ordinador personal, internet les webapps, la connectivitat el mòbil— i sempre el capitaneja un nou entrant: IBM, el «Wintel», Google, ara Apple.

D'aquí treu els seus dos «truïsmes de producte», que considera la bíblia: cada nova onada té menys fricció i ens queda més a prop del cos. Abans havies d'anar a la universitat a fer servir un ordinador; després el tenies al despatx; ara el mòbil ve amb tu i cada cop ens posem més wearables. L'Àlex hi està d'acord i ho lliga amb un episodi anterior: tendim a replicar el model humà amb la tecnologia, i recorda que en l'episodi sobre la censura a internet ja van parlar de com el llenguatge va evolucionar de text a imatge a vídeo. Aquí ha passat el mateix però a la inversa: ha evolucionat la manera de processar i entendre aquell llenguatge. La seva conclusió compartida: ChatGPT amb veu és el que hauria d'haver estat Siri.

La sortida en fals del metavers i el VR

La segona part és la teoria. Les onades tecnològiques no segueixen les innovacions, sinó que primer s'estableix la tecnologia i després creixen les possibilitats, agafant el mercat a contrapeu. Els gegants ho saben i per això han apostat fort pel VR i el metavers —Facebook s'ha rebatejat Meta— per no quedar desbancats. Però els LLMs els han enganxat a contrapeu.

Per Marc, el VR trenca un dels dos truïsmes: no té menys fricció que el mòbil, sinó més; li recorda un ordinador de desktop al qual has d'anar. I com que parlem de tecnologia mainstream que ha d'arribar al «següent bilió» de persones, la propera onada tindrà encara menys fricció que un telèfon. L'Àlex hi aporta el repàs de hardware: el Humane, el pin que es projecta a la palma de la mà i s'enduu tot el hype a Twitter, però que no li sembla el gran què. Recorda dues companyies que van aixecar molts diners i es van fotre l'hòstia: la primera, General Magic —documental a Netflix, fundada per exenginyers d'Apple, un Siri amb vitamines arribat massa aviat—. La segona, Magic Leap, l'aporta Marc, que recorda que un dels primers estudiants que va formar a Ironhack hi va anar a treballar a Miami, amb tecnologia opaca i milions cremats fins a una demo que eren unes Oculus. La nova versió d'aquesta idea seria OpenAI fitxant l'agència de disseny de Jony Ive, l'exdissenyador d'Apple.

Per què aquesta vegada és diferent

Marc tanca el tercer bloc amb dos factors. El primer: canvia el model de generació de contingut a les xarxes. Fins ara hi havia una limitació humana —el contingut l'havia de fer una persona—, però ara es pot sintetitzar amb màquines i serà cada cop més indistingible, cosa que ens porta a les «xarxes socials sintètiques» on no saps on és la línia entre l'humà i el generat. El segon, que ja havia apuntat l'Àlex: l'input d'aquests models és multimodal, i això redueix la fricció.

La conversa de veu pel carrer amb ChatGPT

Aquí arriba l'anècdota central. Marc explica que va sortir a caminar pel carrer parlant amb ChatGPT en mode veu —que acabava de sortir i només funcionava a l'app del mòbil—. Va començar amb converses transaccionals, preguntant-li sobre la identitat de la IA o què n'opina, de la realitat virtual. En un moment, parlant amb una veu de dona, el seu cap va fer clic i va començar a tractar-la com una persona. Marc, que es defineix com superracional i poc afable per a aquestes coses, va experimentar per primera vegada a la vida el «suspension of disbelief»: en un context que saps fictici, et deixes emportar fins a voler creure que és real. I li va espantar pensar que això és la versió 1.0.

L'Àlex hi posa el paral·lelisme de la ouija: no és tant que et parli, sinó la validació social que t'empeny a creure-t'ho. Matisa que ChatGPT ja passa el test de Turing —en aquell moment podrien haver canviat la veu per una persona real i Marc no se n'hauria adonat— però insisteix que hi ha un component de validació social: estem rodejats de gent flipada amb la IA, i fora d'aquest cercle la cosa canvia. Marc objecta que ell anava sol pel carrer, sense ningú al costat pressionant-lo. Surt també l'entrevista de Lex Fridman a Mark Zuckerberg al metavers a YouTube, on els cinc primers minuts són una dissertació d'al·lucinació amb els avatars fotorealistes; Marc remata que els millors casos distòpics ja s'han fet realitat.

Generalistes contra especialistes i el 40 % d'acord

L'Àlex tanca aquesta tangent amb una tesi pròpia: ChatGPT és un generalista, i les eines verticals fan millor la seva feina. Posa exemples —HappyScribe per a transcripció i traducció, o Superhuman per escriure correus, que escriu com ell perquè està entrenat amb el seu corpus, cosa que ChatGPT no pot fer—. L'artesà, el mestre del craft, tirarà sempre d'eines específiques perquè seran molt millors. Marc respon amb un percentatge: hi està «40 % d'acord», i precisa que el número no és trivial. Reconeix que avui les eines verticals funcionen millor i ell també les fa servir, però sosté que amb el temps quedaran eclipsades per una intel·ligència generalista amb input multimodal. El seu punt de tot l'episodi: aquesta tecnologia és la propera onada que facilitarà nous entrants, i l'adopció anirà de la mà de la facilitat d'input.

Àudio contra pantalla i el dilema de la sincronia

L'Àlex es vol mostrar escèptic en un punt: l'àudio sol, sense pantalla, és intrusiu i obliga a ser síncron, com una conversa que no et deixa fer multitasking. Per això ha triomfat WhatsApp: t'escric i contestes quan vols. La vista, en canvi, et deixa processar tres o quatre coses alhora. Marc imagina un headset tipus AirPods, sempre connectat i amb prou bateria per portar-lo tot el dia a l'orella: un «bitxo» al servei 24/7. Cita el millor cas d'ús multimodal que ha vist —passar-li una foto d'un senyal de zona blava i preguntar-li si pots aparcar, perquè és impossible saber-ho— i les ulleres amb càmera que Facebook acaba de presentar, que abracen la nova realitat en comptes de ser un apanyo dins el mòbil.

Tangent d'insults, fonètica i un patrocini imaginari

De la idea que els assistents «parlen en castellà a totes les pel·lis» surt el complex català de canviar de llengua quan la cosa es posa seriosa o business. L'Àlex deixa anar una teoria fonètica: els insults en castellà «molen» perquè són guturals, i els millors insultadors serien els àrabs pel seu sistema fonètic; els alemanys i holandesos no, perquè gairebé no tenen paraulotes. En català els millors són «cap de trons» o «vés a veure un got de llet calenta» a la Vegeta. Marc promet passar un fil de Racó Català amb 3.000 insults. I broma amb un patrocini: que els fitxi ABA English i facin una permuta, donant cursos a l'audiència que no entén els tecnicismes en anglès.

Instruccions personalitzades i el dilema de privadesa

Per acabar, l'Àlex comenta dues funcionalitats noves de ChatGPT. La primera, les instruccions personalitzades: 1.500 caràcters per descriure't —ell hi ha posat que és CEO d'una empresa, amb formació en desenvolupament i coneixement de màrqueting inbound i vendes B2B— perquè no t'expliqui els bàsics, més instruccions fixes com no etzibar el típic «soc un model de llenguatge» o no inventar-se dades sense citacions. La segona, una preocupació: quan li passes un Excel amb finances, ChatGPT et demana ofuscar les dades. L'Àlex relativitza el risc d'un data leak amb la informació d'un dels 25 Excels de MarsBased del 2023, fora de context, però admet que hi ha un tema de privadesa i d'esforç —si has d'ofuscar tu mateix les dades abans, l'eina no t'estalvia gaire feina—. Ho deixen per a un altre dia, satisfets amb tot el que han parlat.

Escolta l'episodi