Lyssna när som helst, var som helst

Kliv in i en oändlig värld av stories

  • 1 miljon stories
  • Hundratals nya stories varje vecka
  • Få tillgång till exklusivt innehåll
  • Avsluta när du vill
Starta erbjudandet
SE - Details page - Device banner - 894x1036
Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Språk
Engelska
Format
Kategori

Fakta

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (E-bok): 6610001219079

Utgivningsdatum

E-bok: 8 maj 2026

Taggar

Därför kommer du älska Storytel

  • 1 miljon stories

  • Lyssna och läs offline

  • Exklusiva nyheter varje vecka

  • Kids Mode (barnsäker miljö)

Populäraste valet

Premium

Lyssna och läs ofta.

169 kr /månad

  • Exklusivt innehåll

  • Avsluta när du vill

  • Obegränsad lyssning på podcasts

Starta erbjudandet

Unlimited

Lyssna och läs obegränsat.

249 kr /månad

  • Exklusivt innehåll

  • Avsluta när du vill

  • Obegränsad lyssning på podcasts

Starta erbjudandet

Family

Dela stories med hela familjen.

Från 239 kr /månad

  • Exklusivt innehåll

  • Avsluta när du vill

  • Obegränsad lyssning på podcasts

Du + 1 familjemedlem2 konton

239 kr /månad

Starta erbjudandet

Flex

Lyssna och läs ibland – spara dina olyssnade timmar.

99 kr /månad

  • Spara upp till 100 olyssnade timmar

  • Exklusivt innehåll

  • Avsluta när du vill

  • Obegränsad lyssning på podcasts

Starta erbjudandet