À la une
H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM
H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.
À la une
H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.
LeCompute décortique l'infrastructure de l'IA — GPU et silicium, mémoire HBM et interconnexions, runtimes d'inférence comme vLLM ou llama.cpp, quantification et edge AI. Des analyses techniques et des benchmarks reproductibles, du silicium au code, sans hype.
Coûts
Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.
Coûts
Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.
Edge AI
Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.
Kernel & Perf
Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.
Runtimes
Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.
Silicon
CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.