Meta llança Llama 3: l'open source canvia el que el teu equip d'enginyeria ha de saber
El 18 d'abril, Meta va llançar Llama 3. Dos models — de 8B i 70B paràmetres — completament oberts i amb llicència comercial sense cost. Segons Fortune, aquest llançament intensifica la competència en un mercat que fins fa poc dominaven un grapat d'empreses amb models tancats.
Això no és només una notícia tècnica. És un canvi estructural en com les startups poden construir productes amb IA. Fa prou anys que sóc enginyer per haver vist aquesta pel·lícula abans — amb Linux, i de seguida hi tornaré. Si tens un equip d'enginyeria — o n'estàs muntant un — has d'entendre què implica.
La llicència importa més que els benchmarks
Les xifres parlen per si soles. Llama 3 70B supera Gemini Pro 1.5 i Claude 3 Sonnet a la majoria de benchmarks públics. S'ha entrenat amb 15 bilions de tokens — set vegades més que Llama 2. La qualitat del model ja no és un argument vàlid per dependre exclusivament d'APIs propietàries.
Però el més important no són els benchmarks: és la llicència. Qualsevol empresa pot descarregar Llama 3, executar-lo a la seva pròpia infraestructura i construir-hi productes comercials al damunt sense pagar royalties ni tarifes per token.
Fa un any, accedir a un model de llenguatge competitiu volia dir pressupost per a les APIs d'OpenAI o un acord enterprise amb Google. Avui el model és a Hugging Face, esperant que algú el descarregui.
L'accés ja no és el coll d'ampolla
Aquí és on molts fundadors s'equivoquen. Veuen que el model és gratuït i donen per fet que el cost de construir funcionalitats d'IA acaba de baixar a zero. No és així.
El model és gratuït. Desplegar-lo, optimitzar-lo, mantenir-lo i fer-lo anar en producció, no. I això demana un tipus d'enginyeria que la majoria d'equips no tenen.
Pensa en l'analogia de Linux. Linux és gratuït; ho ha estat sempre. Però les empreses que realment en treuen partit són les que tenen enginyers que saben configurar servidors, gestionar la seguretat, automatitzar desplegaments i escalar infraestructura. El programari lliure no elimina la necessitat de talent: la transforma.
Amb Llama 3 passa exactament el mateix. El nou coll d'ampolla no és el model: és l'enginyer que sap posar-lo en producció.
Les habilitats que el teu equip necessita (i que probablement no té)
Si et planteges fer servir Llama 3 — o qualsevol model open source — al teu producte, aquestes són les habilitats que has de cobrir:
- Model serving: eines com vLLM o el Text Generation Inference (TGI) de Hugging Face per servir el model amb una latència acceptable i prou throughput per a producció.
- Fine-tuning: tècniques com LoRA i QLoRA permeten adaptar el model al teu cas d'ús sense necessitar centenars de GPUs. Però demanen experiència en preparació de dades, hiperparàmetres i avaluació.
- Pipelines d'avaluació: mesurar sistemàticament la qualitat de les respostes. «Provar-ho a mà» no és suficient. Calen mètriques, datasets d'avaluació i processos reproduïbles.
- Optimització d'inferència: quantització, batching dinàmic, gestió de la cache KV. La diferència entre un desplegament que costa 200 euros al mes i un que en costa 2.000 es juga en aquests detalls.
- Infraestructura de GPU: triar la GPU adequada (A100, L40S, T4), configurar l'entorn CUDA, gestionar la memòria, planificar capacitat. Això no és DevOps tradicional.
- Monitoratge en producció: detectar degradació del model, drift a les dades d'entrada, latències anòmales, errors silenciosos. Un model d'IA en producció no és un microservei estàndard: necessita observabilitat especialitzada.
Cap d'aquestes habilitats és nova per si sola. Però la combinació de totes en un equip de startup, sí. Fins ara, aquest perfil només el necessitaven les grans empreses amb equips de ML dedicats.
El càlcul que hauries d'estar fent: API o self-hosting
No tots els casos d'ús justifiquen el self-hosting. Aquí tens un marc per decidir:
Les APIs de tercers (OpenAI, Anthropic, Google) tenen sentit quan:
- El teu volum és baix (per sota de 100K crides al mes)
- No necessites una personalització profunda del model
- Una latència d'1-3 segons és acceptable
- No gestiones dades sensibles que no puguin sortir de la teva infraestructura
- Estàs validant la idea abans d'invertir en infraestructura
El self-hosting amb Llama 3 té sentit quan:
- El teu volum és alt i el cost per token es torna prohibitiu
- Necessites fine-tuning per al teu domini específic
- Tens requisits de privadesa o compliance (GDPR, dades mèdiques, dades financeres)
- Necessites control total sobre la latència i la disponibilitat
- Vols evitar la dependència d'un proveïdor que pot canviar preus o condicions
El punt d'inflexió acostuma a ser el volum. A 50.000 crides diàries amb prompts llargs, la factura mensual d'una API pot superar fàcilment els 5.000-10.000 euros. Una GPU dedicada amb un Llama 3 optimitzat pot servir el mateix volum per una fracció d'aquest cost.
Però — i això és clau — l'estalvi només es materialitza si tens l'equip que sap muntar-ho i mantenir-ho. Si llogues una GPU i ningú del teu equip sap configurar vLLM, gastaràs més, no menys.
Per què això importa especialment a les startups europees
L'ecosistema d'IA europeu té una particularitat: moltes startups construeixen sobre les APIs d'empreses americanes. Això funciona fins que deixa de funcionar — perquè pugen els preus, perquè el GDPR complica enviar dades a servidors dels Estats Units, o perquè necessites una personalització que una API genèrica no t'ofereix.
Llama 3 obre una porta real a les startups europees que volen construir productes d'IA amb sobirania tecnològica: pots executar el model en servidors europeus, amb dades europees, complint la normativa europea. Sense intermediaris.
Però la porta només s'obre si tens enginyers que sàpiguen travessar-la.
El talent existeix — però no on el busques
El problema pràctic és aquest: els enginyers amb experiència en infraestructura de ML són escassos i cars. A l'Europa occidental, un enginyer sènior de ML pot costar entre 90.000 i 150.000 euros l'any. I ni així són fàcils de trobar: la demanda supera de llarg l'oferta.
A LATAM hi ha un pool creixent d'enginyers amb experiència en aquest stack. Molts han treballat en empreses americanes que ja despleguen models open source en producció. Tenen experiència real amb les eines, no només coneixement teòric.
A Conectia, quan una startup ens demana enginyers per a projectes d'IA, no busquem perfils que hagin fet un curs de prompt engineering. Busquem enginyers que hagin desplegat models en producció, que sàpiguen la diferència entre servir un model de 8B i un de 70B, que entenguin quan cal quantitzar i quan no, que hagin muntat pipelines d'avaluació de debò.
Cada perfil passa una validació tècnica amb un CTO — no amb un recruiter buscant buzzwords en un currículum.
El que hauries de fer aquesta setmana
Si estàs construint un producte que fa servir IA — o que en farà servir:
- Descarrega Llama 3 8B i posa'l a prova. Per al model petit no necessites una GPU cara. Executa'l en local i entén què pot fer i què no.
- Fes números. Suma la teva despesa actual (o projectada) en APIs d'IA. Compara-la amb el cost del self-hosting, incloent-hi l'equip que ho hauria de mantenir.
- Avalua les habilitats del teu equip. Algú sap configurar vLLM? Algú ha fet fine-tuning? Hi ha experiència amb infraestructura de GPU? Si la resposta és «no» a tot arreu, necessites incorporar aquest perfil.
- No t'esperis. La finestra d'oportunitat dels models open source s'està obrint ara. Les startups que es moguin ràpid tindran un avantatge de cost i de flexibilitat sobre les que continuïn depenent exclusivament d'APIs propietàries.
El model ja és gratuït. La infraestructura al núvol és accessible. L'únic que falta és l'equip que connecti totes dues coses amb el teu producte.
Vols incorporar enginyers que sàpiguen desplegar models open source en producció? Parla amb un CTO: validem experiència real en infraestructura de ML, no buzzwords.


