Słuchaj i czytaj 50% taniej przez 4 miesiące!

Znajdź swoją nową ulubioną historię - teraz za jedyne 19,95 zł miesięcznie przez pierwsze 4 miesiące

  • Czytaj i słuchaj jak chcesz i ile chcesz
  • Ponad 500 000 tytułów
  • Tytuły dostępne wyłącznie w Storytel oraz Storytel Originals
  • Łatwa rezygnacja w dowolnym momencie
Wypróbuj
PL - Details page - Device banner - 894x1036
Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Język
Angielski
Format
Kategoria

Literatura Faktu

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (E-book): 6610001219079

Wydanie

E-book: 8 maja 2026

Tagi

    Wybierz swoją subskrypcję:

    • Ponad 500 000 tytułów w cenie jednego abonamentu

    • Słuchaj i czytaj w trybie offline

    • Ekskluzywne produkcje audio Storytel Original

    • Tryb dziecięcy Kids Mode

    • Anuluj kiedy chcesz

    Najpopularniejsze

    Unlimited

    Dla tych, którzy chcą słuchać i czytać bez limitów.

    39.90 zł /30 dni

    • 1 konto

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Skorzystaj z promocji

    Unlimited na rok

    Dla tych, którzy chcą słuchać i czytać bez limitów.

    39.90 zł /30 dni

    • 1 konto

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Rozpocznij subskrypcję

    Basic

    Dla tych, którzy słuchają i czytają od czasu do czasu.

    22.90 zł /30 dni

    • 1 konto

    • 10 godzin / miesiąc

    • Anuluj w dowolnym momencie

    Wypróbuj

    Family

    Dla tych, którzy chcą dzielić się historiami ze znajomymi i rodziną.

    Od 59.90 zł /30 dni

    • 2–3 konta

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Ty + 1 członek rodziny2 konta

    59.90 zł /30 dni

    Wypróbuj