Infrastructure IA : GPU, silicium et inférence

À la une

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

LeCompute décortique l'infrastructure de l'IA — GPU et silicium, mémoire HBM et interconnexions, runtimes d'inférence comme vLLM ou llama.cpp, quantification et edge AI. Des analyses techniques et des benchmarks reproductibles, du silicium au code, sans hype.

Analyses techniques de l'infrastructure IA

Voir tous les dossiers →

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

Coût d'inférence
GPU cloud
API LLM
Auto-hébergement

Coûts

GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.

GPU cloud
Souveraineté
Scaleway
OVHcloud

Edge AI

Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?

Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.

Jetson Thor
Hailo-10H
Google Coral
Edge AI

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

eBPF
perf
Observabilité
Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

KV cache
PagedAttention
Quantification
Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

CUDA
ROCm
AMD
NVIDIA

LeCompute — analyses techniques de l'infrastructure et du compute IA