LeCompute — analyses techniques de l'infrastructure et du compute IA

À la une

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

7 min de lecture

LeCompute décortique l'infrastructure de l'IA — GPU et silicium, mémoire HBM et interconnexions, runtimes d'inférence comme vLLM ou llama.cpp, quantification et edge AI. Des analyses techniques et des benchmarks reproductibles, du silicium au code, sans hype.

Analyses techniques de l'infrastructure IA

Voir tous les dossiers →

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

7 min de lecture
  • Coût d'inférence
  • GPU cloud
  • API LLM
  • Auto-hébergement

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

5 min de lecture
  • eBPF
  • perf
  • Observabilité
  • Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

6 min de lecture
  • KV cache
  • PagedAttention
  • Quantification
  • Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

5 min de lecture
  • CUDA
  • ROCm
  • AMD
  • NVIDIA