Non-fictie
"Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching"
This book is for engineers and platform practitioners who need to move transformer inference from demos into reliable, high-performance production systems. Rather than treating serving as a thin wrapper around model.generate(), it addresses the real tensions that emerge under live traffic: latency versus throughput, streaming responsiveness versus compute cost, and hardware efficiency versus operational simplicity. Readers building chat systems, internal AI platforms, or GPU-backed inference services will find a rigorous guide to what actually governs TGI behavior in production.
Across the book, you will build a working mental model of TGI’s runtime architecture, request flow, streaming semantics, and continuous batching scheduler. It explains prefill and decode execution, token-budget controls, time-to-first-token behavior, multi-GPU sharding, replication trade-offs, and inference optimizations such as attention and memory techniques. The result is practical decision-making skill: how to size deployments, tune throughput-latency trade-offs, expose stable APIs, integrate streaming clients, and diagnose bottlenecks with metrics and tracing.
The treatment assumes experience with transformers, GPU-based model serving, and modern infrastructure patterns such as HTTP APIs, proxies, and observability tooling. Its distinguishing strength is operational depth: the material is organized around deployment decisions, failure modes, compatibility boundaries, and performance trade-offs, making it es
© 2026 NobleTrex Press (E-boek): 6610001219109
Verschijnt op
E-boek: 8 mei 2026
Kies het aantal uur en accounts dat bij jou past
Kids Mode - een veilige omgeving voor kinderen
Download verhalen voor offline toegang
Al 2,5 miljoen abonnees wereldwijd
★★★★★ 4,7 in de App Store
Voor wie onbeperkt wil luisteren en lezen.
€13.99 /30 dagen
Meer dan 1 miljoen luisterboeken en ebooks
Altijd opzegbaar
Voor wie zo nu en dan wil luisteren en lezen.
€9.99 /30 dagen
Meer dan 1 miljoen luisterboeken en ebooks
Altijd opzegbaar
Voor wie Storytel wil proberen.
€7.99 /30 dagen
Spaar ongebruikte uren op tot 50 uur
Meer dan 1 miljoen luisterboeken en ebooks
Altijd opzegbaar
Voor wie verhalen met familie en vrienden wil delen.
Vanaf €18.99 /30 dagen
Meer dan 1 miljoen luisterboeken en ebooks
Altijd opzegbaar
€18.99 /30 dagen