TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Kieli
Englanti
Formaatti
Kategoria

Tietokirjallisuus

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (E-kirja): 6610001219079

Julkaisupäivä

E-kirja: 8. toukokuuta 2026

Avainsanat

    Kuuntele missä ja milloin haluat

    Astu tarinoiden maailmaan

    • Pohjoismaiden suosituin ääni- ja e-kirjapalvelu
    • Uppoudu suureen valikoimaan äänikirjoja ja e-kirjoja
    • Storytel Original -sisältöjä yksinoikeudella
    • Ei sitoutumisaikaa
    Aloita ilmainen kokeilu
    NO - Details page - Device banner - 894x1036
    Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

    Valitse tilausmalli

    • Yli miljoona tarinaa

    • Suosituksia juuri sinulle

    • Uusia Storytel Original + muita eksklusiivisia sisältöjä kuukausittain

    • Turvallinen Kids Mode

    • Ei sitoutumisaikaa

    Suosituin

    Premium

    Sinulle joka kuuntelet ja luet usein.

    19.99 € /kuukausi

    • Ei sitoutumisaikaa

    Aloita ilmainen kokeilu

    Standard

    Sinulle joka kuuntelet säännöllisesti.

    16.99 € /kuukausi

    • Ei sitoutumisaikaa

    Aloita ilmainen kokeilu

    Flex

    Sinulle joka kuuntelet vähemmän.

    9.99 € /kuukausi

    • Säästä käyttämättömät tunnit, max 20h

    • Ei sitoutumisaikaa

    Aloita ilmainen kokeilu

    Unlimited

    Sinulle joka haluat rajattomasti tarinoita.

    29.99 € /kuukausi

    • Ei sitoutumisaikaa

    Aloita ilmainen kokeilu

    Family

    Kun haluat jakaa tarinoita perheen kanssa.

    Alkaen 26.99 € /kuukausi

    • Ei sitoutumisaikaa

    Sinä + 1 perheenjäsen2 käyttäjätiliä

    26.99 € /kuukausi

    Aloita ilmainen kokeilu