Слушайте с 60% отстъпка 90 дни

Намерете новата си любима история - сега само за 3.48 € на месец за първите 3 месеца

  • Над 500,000 заглавия на 6 езика
  • Детски режим - безопасна зона за деца
  • Нови книги всяка седмица и ексклузивни заглавия
  • Офлайн режим
Активирайте офертата
BG - Details page - Device banner - 894x1036
Cover for Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Език
Английски
Формат
Категория

Документални

"Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching"

This book is for engineers and platform practitioners who need to move transformer inference from demos into reliable, high-performance production systems. Rather than treating serving as a thin wrapper around model.generate(), it addresses the real tensions that emerge under live traffic: latency versus throughput, streaming responsiveness versus compute cost, and hardware efficiency versus operational simplicity. Readers building chat systems, internal AI platforms, or GPU-backed inference services will find a rigorous guide to what actually governs TGI behavior in production.

Across the book, you will build a working mental model of TGI’s runtime architecture, request flow, streaming semantics, and continuous batching scheduler. It explains prefill and decode execution, token-budget controls, time-to-first-token behavior, multi-GPU sharding, replication trade-offs, and inference optimizations such as attention and memory techniques. The result is practical decision-making skill: how to size deployments, tune throughput-latency trade-offs, expose stable APIs, integrate streaming clients, and diagnose bottlenecks with metrics and tracing.

The treatment assumes experience with transformers, GPU-based model serving, and modern infrastructure patterns such as HTTP APIs, proxies, and observability tooling. Its distinguishing strength is operational depth: the material is organized around deployment decisions, failure modes, compatibility boundaries, and performance trade-offs, making it es

© 2026 NobleTrex Press (Е-книга): 6610001219109

Дата на излизане

Е-книга: 8 май 2026 г.

Разгледай още от

    Изберете своя абонамент

    • Над 500,000 заглавия на 6 езика

    • Нови книги всяка седмица и ексклузивни заглавия

    • Детски режим - безопасна зона за деца

    • Офлайн режим

    Най-популярен

    Unlimited

    Най-добрият избор. Открийте хиляди незабравими истории.

    8.69 € | 16.99 лв. /30 дни

    • Избирайте от хиляди заглавия

    • Слушайте и четете неограничено

    • Прекратете по всяко време

    Пробвайте сега

    Unlimited Годишен

    33% отстъпка от месечния абонамент. Избирайте от хиляди заглавия.

    69.53 € | 135.99 лв. /година

    12 месеца на цената на 8
    • Избирайте от хиляди заглавия

    • Слушайте и четете неограничено

    • Прекратете по всяко време

    Пробвайте 7 дни безплатно

    Family 2 профила

    Споделете историите със семейството или приятелите си.

    12.78 € | 24.99 лв. /30 дни

    • Потопете се заедно в света на историите

    • Слушайте и четете неограничено

    • Прекратете по всяко време

    Пробвайте 7 дни безплатно

    Family 3 профила

    Споделете историите със семейството или приятелите си.

    14.99 € | 29.32 лв. /30 дни

    • Потопете се заедно в света на историите

    • Слушайте и четете неограничено

    • Прекратете по всяко време

    Пробвайте 7 дни безплатно