Escucha y lee

Entra en un mundo infinito de historias

  • Vive la experiencia de leer y escuchar todo lo que quieras
  • Más de 650.000 títulos
  • Títulos en exclusiva y Storytel Originals
  • Primeros 14 días gratis, luego 8,99 €/mes
  • Cancela cuando quieras
Suscríbete ahora
Details page - Device banner - 894x1036
Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Idioma
Inglés
Formato
Categoría

No ficción

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (Libro electrónico): 6610001219079

Fecha de lanzamiento

Libro electrónico: 8 de mayo de 2026

Etiquetas

    Elige el plan:

    • Más de 650.000 títulos

    • Kids mode

    • Modo sin conexión

    • Cancela cuando quieras

    ¡Más popular!

    Unlimited

    Para los que quieren escuchar y leer sin límites.

    8.99 € /mes

    • Escucha y lee los títulos que quieras

    • Modo sin conexión + Kids Mode

    • Cancela en cualquier momento

    Pruébalo ahora

    Family

    Para los que quieren compartir historias con su familia y amigos.

    Desde 15.99 € /mes

    • Escucha y lee los títulos que quieras

    • Modo sin conexión + Kids Mode

    • Cancela en cualquier momento

    Tú + 1 miembro de la familia2 cuentas

    15.99 € /mes

    Pruébalo ahora