Słuchaj i czytaj 50% taniej przez 4 miesiące!

Znajdź swoją nową ulubioną historię - teraz za jedyne 19,95 zł miesięcznie przez pierwsze 4 miesiące

  • Czytaj i słuchaj jak chcesz i ile chcesz
  • Ponad 500 000 tytułów
  • Tytuły dostępne wyłącznie w Storytel oraz Storytel Originals
  • Łatwa rezygnacja w dowolnym momencie
Wypróbuj
PL - Details page - Device banner - 894x1036
Cover for Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Język
Angielski
Format
Kategoria

Literatura Faktu

"Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching"

This book is for engineers and platform practitioners who need to move transformer inference from demos into reliable, high-performance production systems. Rather than treating serving as a thin wrapper around model.generate(), it addresses the real tensions that emerge under live traffic: latency versus throughput, streaming responsiveness versus compute cost, and hardware efficiency versus operational simplicity. Readers building chat systems, internal AI platforms, or GPU-backed inference services will find a rigorous guide to what actually governs TGI behavior in production.

Across the book, you will build a working mental model of TGI’s runtime architecture, request flow, streaming semantics, and continuous batching scheduler. It explains prefill and decode execution, token-budget controls, time-to-first-token behavior, multi-GPU sharding, replication trade-offs, and inference optimizations such as attention and memory techniques. The result is practical decision-making skill: how to size deployments, tune throughput-latency trade-offs, expose stable APIs, integrate streaming clients, and diagnose bottlenecks with metrics and tracing.

The treatment assumes experience with transformers, GPU-based model serving, and modern infrastructure patterns such as HTTP APIs, proxies, and observability tooling. Its distinguishing strength is operational depth: the material is organized around deployment decisions, failure modes, compatibility boundaries, and performance trade-offs, making it es

© 2026 NobleTrex Press (E-book): 6610001219109

Wydanie

E-book: 8 maja 2026

Tagi

    Wybierz swoją subskrypcję:

    • Ponad 500 000 tytułów w cenie jednego abonamentu

    • Słuchaj i czytaj w trybie offline

    • Ekskluzywne produkcje audio Storytel Original

    • Tryb dziecięcy Kids Mode

    • Anuluj kiedy chcesz

    Najpopularniejsze

    Unlimited

    Dla tych, którzy chcą słuchać i czytać bez limitów.

    39.90 zł /30 dni

    • 1 konto

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Skorzystaj z promocji

    Unlimited na rok

    Dla tych, którzy chcą słuchać i czytać bez limitów.

    39.90 zł /30 dni

    • 1 konto

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Rozpocznij subskrypcję

    Basic

    Dla tych, którzy słuchają i czytają od czasu do czasu.

    22.90 zł /30 dni

    • 1 konto

    • 10 godzin / miesiąc

    • Anuluj w dowolnym momencie

    Wypróbuj

    Family

    Dla tych, którzy chcą dzielić się historiami ze znajomymi i rodziną.

    Od 59.90 zł /30 dni

    • 2–3 konta

    • Słuchanie bez limitów

    • Anuluj w dowolnym momencie

    Ty + 1 członek rodziny2 konta

    59.90 zł /30 dni

    Wypróbuj