TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Språk
Engelsk
Format
Kategori

Fakta og dokumentar

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (E-bok): 6610001219079

Utgivelsesdato

E-bok: 8. mai 2026

Tagger

    Derfor vil du elske Storytel:

    • Over 900 000 lydbøker og e-bøker

    • Eksklusive nyheter hver uke

    • Lytt og les offline

    • Kids Mode (barnevennlig visning)

    • Avslutt når du vil

    Sommertilbud: Prøv GRATIS!

    Premium

    For deg som lytter og leser ofte.

    189 kr /måned

    • Lytt opptil 50 timer per måned

    • Over 900 000 bøker

    • Nye eksklusive bøker hver uke

    • Avslutt når du vil

    Prøv gratis

    Unlimited

    For deg som vil lytte og lese ubegrenset.

    219 kr /måned

    • Lytt så mye du vil

    • Over 900 000 bøker

    • Nye eksklusive bøker hver uke

    • Avslutt når du vil

    Benytt tilbud

    Family

    For deg som ønsker å dele historier med familien.

    Fra 289 kr /måned

    • Familiens førstevalg

    • Lytt så mye du vil

    • Over 900 000 bøker

    • Nye eksklusive bøker hver uke

    • Avslutt når du vil

    Du + 1 familiemedlem2 kontoer

    289 kr /måned

    Benytt tilbud

    Basic

    For deg som lytter og leser av og til.

    149 kr /måned

    • Lytt opp til 20 timer per måned

    • Over 900 000 bøker

    • Nye eksklusive bøker hver uke

    • Avslutt når du vil

    Benytt tilbud

    Prøv Storytel nå 📚

    Kos deg med ubegrenset tilgang til mer enn 900 000 titler.

    • Lytt og les så mye du vil
    • Eksklusive nyheter hver uke
    • Utforsk et stort bibliotek med fortellinger
    • Over 1500 serier på norsk
    • Ingen bindingstid, avslutt når du vil
    Benytt tilbud
    NO - Details page - Device banner - 894x1036
    Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering