ฟังและอ่าน

ก้าวเข้าสู่โลกแห่งเรื่องราวอันไม่มีที่สิ้นสุด

  • อ่านและฟังได้มากเท่าที่คุณต้องการ
  • มากกว่า 1 ล้านชื่อ
  • Storytel Originals ผลงานเฉพาะบน Storytel
  • 199บ./ด.
  • ยกเลิกได้ทุกเมื่อ
เริ่ม
Details page - Device banner - 894x1036
Cover for Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

ภาษา
ภาษาอังกฤษ
รูปแบบ
คอลเลกชัน

นอนฟิกชั่น

"Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching"

This book is for engineers and platform practitioners who need to move transformer inference from demos into reliable, high-performance production systems. Rather than treating serving as a thin wrapper around model.generate(), it addresses the real tensions that emerge under live traffic: latency versus throughput, streaming responsiveness versus compute cost, and hardware efficiency versus operational simplicity. Readers building chat systems, internal AI platforms, or GPU-backed inference services will find a rigorous guide to what actually governs TGI behavior in production.

Across the book, you will build a working mental model of TGI’s runtime architecture, request flow, streaming semantics, and continuous batching scheduler. It explains prefill and decode execution, token-budget controls, time-to-first-token behavior, multi-GPU sharding, replication trade-offs, and inference optimizations such as attention and memory techniques. The result is practical decision-making skill: how to size deployments, tune throughput-latency trade-offs, expose stable APIs, integrate streaming clients, and diagnose bottlenecks with metrics and tracing.

The treatment assumes experience with transformers, GPU-based model serving, and modern infrastructure patterns such as HTTP APIs, proxies, and observability tooling. Its distinguishing strength is operational depth: the material is organized around deployment decisions, failure modes, compatibility boundaries, and performance trade-offs, making it es

© 2026 NobleTrex Press (อีบุ๊ก): 6610001219109

วันเปิดตัว

อีบุ๊ก: 8 พฤษภาคม 2569

แท็ก

    ทุกที่ ทุกเวลากับ Storytel:

    • กว่า 500 000 รายการ

    • Kids Mode (เนื้อหาที่ปลอดภัยสำหรับเด็ก)

    • ดาวน์โหลดหนังสือสำหรับการเข้าถึงแบบออฟไลน์

    • ยกเลิกได้ตลอดเวลา

    ที่นิยมมากที่สุด

    Unlimited

    สำหรับผู้ที่ต้องการฟังและอ่านอย่างไม่จำกัด

    199 บ. /เดือน

    • 1 บัญชี

    • ยกเลิกได้ทุกเมื่อ

    เริ่ม

    Family

    สำหรับผู้ที่ต้องการแบ่งปันเรื่องราวกับครอบครัวและเพื่อน

    349 บ. /เดือน

    • ฟังได้ไม่จำกัด

    • ยกเลิกได้ทุกเมื่อ

    เริ่ม