Infrastructure IA, expliquee

Notes techniques sur ce qui fait reellement tourner les modeles de langage en production. Ecrites du point de vue de l’ingenieur qui exploite ces systemes : GPU, serveurs d’inference, dimensionnement, fiabilite et cout.

Le voyage d'un token : ce qui se passe entre la requête et la réponse

Suivre une requête depuis le navigateur jusqu’au dernier mot généré, pour comprendre où le travail se fait, ce qui coûte cher, et pourquoi.