ฟังและอ่าน

ก้าวเข้าสู่โลกแห่งเรื่องราวอันไม่มีที่สิ้นสุด

  • อ่านและฟังได้มากเท่าที่คุณต้องการ
  • มากกว่า 1 ล้านชื่อ
  • Storytel Originals ผลงานเฉพาะบน Storytel
  • 199บ./ด.
  • ยกเลิกได้ทุกเมื่อ
เริ่ม
Details page - Device banner - 894x1036
Cover for TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering

ภาษา
ภาษาอังกฤษ
รูปแบบ
คอลเลกชัน

นอนฟิกชั่น

"TensorRT‑LLM Optimization: Quantization, Kernel Fusion, and Throughput Engineering"

Built for experienced ML systems engineers, inference specialists, and GPU performance practitioners, this book is a deep guide to making large language models run faster, cheaper, and more predictably with TensorRT‑LLM. Rather than offering generic acceleration advice, it develops a precise mental model of the TensorRT‑LLM stack so readers can understand where performance is won or lost: in quantization choices, graph compilation, fused kernels, KV-cache policy, and serving scheduler behavior.

The book covers the full optimization path from precision strategy and post-training quantization pipelines to engine build configuration, plugin-enabled fusion, attention specialization, and throughput-oriented serving design. Readers will learn how to choose among FP16, BF16, FP8, INT8, and INT4 in hardware-aware ways; validate deployable quantized artifacts; realize fused execution paths in compiled engines; engineer KV-cache behavior for long-context workloads; and benchmark and profile systems with enough rigor to attribute gains to the right layer.

Structured as an advanced, implementation-minded text, the book emphasizes cross-layer tradeoffs rather than isolated tricks. It assumes solid familiarity with transformer inference, CUDA-era GPU concepts, and production deployment concerns, and rewards readers who want durable optimization judgment instead of version-fragile recipes."

© 2026 NobleTrex Press (อีบุ๊ก): 6610001219079

วันเปิดตัว

อีบุ๊ก: 8 พฤษภาคม 2569

แท็ก

    ทุกที่ ทุกเวลากับ Storytel:

    • กว่า 500 000 รายการ

    • Kids Mode (เนื้อหาที่ปลอดภัยสำหรับเด็ก)

    • ดาวน์โหลดหนังสือสำหรับการเข้าถึงแบบออฟไลน์

    • ยกเลิกได้ตลอดเวลา

    ที่นิยมมากที่สุด

    Unlimited

    สำหรับผู้ที่ต้องการฟังและอ่านอย่างไม่จำกัด

    199 บ. /เดือน

    • 1 บัญชี

    • ยกเลิกได้ทุกเมื่อ

    เริ่ม

    Family

    สำหรับผู้ที่ต้องการแบ่งปันเรื่องราวกับครอบครัวและเพื่อน

    349 บ. /เดือน

    • ฟังได้ไม่จำกัด

    • ยกเลิกได้ทุกเมื่อ

    เริ่ม