Escucha y lee

Descubre un mundo infinito de historias

  • Lee y escucha todo lo que quieras
  • Más de 1 millón de títulos
  • Títulos exclusivos + Storytel Originals
  • 7 días de prueba gratis, luego $169 MXN al mes
  • Cancela cuando quieras
Suscríbete ahora
Copy of Device Banner Block 894x1036 3
Cover for Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching

Idioma
Inglés
Formato
Categoría

No ficción

"Text Generation Inference (TGI): Deploying Transformers with Streaming and Batching"

This book is for engineers and platform practitioners who need to move transformer inference from demos into reliable, high-performance production systems. Rather than treating serving as a thin wrapper around model.generate(), it addresses the real tensions that emerge under live traffic: latency versus throughput, streaming responsiveness versus compute cost, and hardware efficiency versus operational simplicity. Readers building chat systems, internal AI platforms, or GPU-backed inference services will find a rigorous guide to what actually governs TGI behavior in production.

Across the book, you will build a working mental model of TGI’s runtime architecture, request flow, streaming semantics, and continuous batching scheduler. It explains prefill and decode execution, token-budget controls, time-to-first-token behavior, multi-GPU sharding, replication trade-offs, and inference optimizations such as attention and memory techniques. The result is practical decision-making skill: how to size deployments, tune throughput-latency trade-offs, expose stable APIs, integrate streaming clients, and diagnose bottlenecks with metrics and tracing.

The treatment assumes experience with transformers, GPU-based model serving, and modern infrastructure patterns such as HTTP APIs, proxies, and observability tooling. Its distinguishing strength is operational depth: the material is organized around deployment decisions, failure modes, compatibility boundaries, and performance trade-offs, making it es

© 2026 NobleTrex Press (Libro electrónico): 6610001219109

Fecha de lanzamiento

Libro electrónico: 8 de mayo de 2026

Etiquetas

    Explora nuevos mundos

    • Más de 1 millón de títulos

    • Modo sin conexión

    • Kids Mode

    • Cancela en cualquier momento

    Ilimitado Mensual

    Escucha y lee sin límites.

    $169 /mes

    • Escucha y lee los títulos que quieras

    • Modo sin conexión + Kids Mode

    • Cancela en cualquier momento

    Pruébalo ahora

    Ilimitado Anual

    Escucha y lee sin límites a un mejor precio.

    $1190 /año

    • Escucha y lee los títulos que quieras

    • Modo sin conexión + Kids Mode

    • Cancela en cualquier momento

    Pruébalo ahora
    ¡Más popular!

    Familiar

    Perfecto para compartir historias con toda la familia.

    Desde $259 /mes

    • Acceso a todo el catálogo

    • Modo sin conexión + Kids Mode

    • Cancela en cualquier momento

    Tú + 3 miembros de la familia4 cuentas

    $259 /mes

    Pruébalo ahora