Luister en lees nu 6 maanden met 50% korting

Meer dan 1 miljoen luisterboeken en ebooks in één app. Probeer Storytel nu 6 maanden met 50% korting.

  • Switch makkelijk tussen luisteren en lezen
  • Elke week honderden nieuwe verhalen
  • Voor ieder een passend abonnement
  • Opzeggen wanneer je maar wilt
Activeer aanbieding
NL - Details page - Device banner - 894x1036
Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Taal
Engels
Formaat
Categorie

Non-fictie

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (E-boek): 6610001219079

Verschijnt op

E-boek: 8 mei 2026

Maak je keuze:

  • Kies het aantal uur en accounts dat bij jou past

  • Kids Mode - een veilige omgeving voor kinderen

  • Download verhalen voor offline toegang

  • Al 2,5 miljoen abonnees wereldwijd

  • ★★★★★ 4,7 in de App Store

Meest gekozen

Unlimited

Voor wie onbeperkt wil luisteren en lezen.

€13.99 /30 dagen

  • Meer dan 1 miljoen luisterboeken en ebooks

  • Altijd opzegbaar

Activeer aanbieding

Premium

Voor wie zo nu en dan wil luisteren en lezen.

€9.99 /30 dagen

  • Meer dan 1 miljoen luisterboeken en ebooks

  • Altijd opzegbaar

Probeer 14 dagen gratis

Flex

Voor wie Storytel wil proberen.

€7.99 /30 dagen

  • Spaar ongebruikte uren op tot 50 uur

  • Meer dan 1 miljoen luisterboeken en ebooks

  • Altijd opzegbaar

Begin nu

Family

Voor wie verhalen met familie en vrienden wil delen.

Vanaf €18.99 /30 dagen

  • Meer dan 1 miljoen luisterboeken en ebooks

  • Altijd opzegbaar

Jij + 1 familielid2 accounts

€18.99 /30 dagen

Probeer 14 dagen gratis