Storie senza limiti: 3 mesi di audiolibri a 1€/mese

Preparati a un'estate di storie a soli 3€

Mentre sogni la prossima estate, vola con la fantasia e trasforma ogni momento in un viaggio straordinario. Attiva il piano Unlimited e porta con te oltre 400.000 audiolibri e podcast. Per i prossimi 3 mesi paghi solo 1€/mese, poi 9,99€/mese. Non hai nessun vincolo e puoi disdire quando vuoi.

Attiva 3 mesi a 1/€ mese

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

Lingua
Inglese
Formato
Categoria

Non-fiction

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (Ebook): 6610001219079

Data di uscita

Ebook: 8 maggio 2026

Tag

    Scegli il piano che fa per te

    • Più di 400.000 titoli

    • Kids Mode (accesso sicuro per bambini)

    • Scarica e ascolta offline

    • Disdici quando vuoi

    Il più popolare

    Unlimited

    Ascolto illimitato. Dove vuoi, quando vuoi.

    9.99 € /mese

    • Disdici quando vuoi

    Attiva ora 3 mesi a 1/€ mese

    Basic

    Le tue prime storie, al prezzo più basso.

    6.49 € /mese

    • Disdici quando vuoi

    Prova gratis per 7 giorni

    Unlimited Annuale

    Paghi subito 89.99€/anno, l'equivalente di 7.49€/mese, per 1 anno di ascolto illimitato.

    89.99 € /anno

    12 mesi al prezzo di 9
    • Disdici quando vuoi

    Prova gratis per 14 giorni

    Unlimited Family

    Risparmia con più account. Ognuno con le proprie storie.

    14.99 € /mese

    • Disdici quando vuoi

    Prova gratis per 14 giorni