Logo de Mydra
Artificial Intelligence
DeepLearning.AI logo

DeepLearning.AI

Servir Eficientemente LLMs

  • hasta 1 hora
  • Intermedio

Únete a nuestro nuevo curso corto, Servir Eficientemente Modelos de Lenguaje Grande, para construir una comprensión desde cero de cómo servir aplicaciones LLM con Travis Addair, CTO de Predibase. Ya sea que estés listo para lanzar tu propia aplicación o apenas comenzando a construirla, este curso profundizará tu conocimiento fundamental de cómo funcionan los LLM y te ayudará a comprender mejor las compensaciones de rendimiento que debes considerar.

  • Almacenamiento en caché de KV
  • Agrupamiento continuo
  • Cuantización de modelos
  • Adaptadores de Bajo Rango (LoRA)
  • Pila de inferencia LLM

Resumen

En este curso, aprenderás cómo los modelos de lenguaje grande auto-regresivos generan texto un token a la vez. Implementarás los elementos fundamentales de una pila de inferencia LLM moderna en código, incluyendo almacenamiento en caché de KV, agrupamiento continuo y cuantización de modelos, y evaluarás sus impactos en el rendimiento y la latencia de la inferencia. Explorarás los detalles de cómo funcionan los adaptadores LoRA y aprenderás cómo las técnicas de agrupamiento permiten que diferentes adaptadores LoRA se sirvan a múltiples clientes simultáneamente. Trabajarás con el servidor de inferencia del marco LoRAX de Predibase para ver estas técnicas de optimización implementadas en un servidor de inferencia LLM del mundo real. Saber más sobre cómo operan los servidores LLM te ayudará a comprender mejor las opciones que tienes para aumentar el rendimiento y la eficiencia de tus aplicaciones impulsadas por LLM.

  • Web Streamline Icon: https://streamlinehq.com
    Online
    ubicación del curso
  • Layers 1 Streamline Icon: https://streamlinehq.com
    Inglés
    idioma del curso
  • A tu propio ritmo
    formato del curso
  • Clases En vivo
    entregado en línea

¿Para quién es este curso?

Desarrolladores

Cualquiera que quiera entender los componentes, técnicas y compensaciones de servir eficientemente aplicaciones LLM.

Científicos de Datos

Profesionales que buscan profundizar su conocimiento fundamental de cómo funcionan los LLM y las compensaciones de rendimiento involucradas.

Entusiastas de la IA

Individuos interesados en aprender sobre las optimizaciones que permiten a los proveedores de LLM servir modelos eficientemente a muchos clientes.

Este curso te ayudará a entender los componentes clave, técnicas y compensaciones de servir eficientemente aplicaciones LLM. Aprenderás sobre las optimizaciones más importantes para servir modelos a muchos clientes y obtendrás experiencia práctica con técnicas del mundo real. Ideal para desarrolladores, científicos de datos y entusiastas de la IA que buscan mejorar sus habilidades y conocimientos.

Requisitos Previos

1 / 3

  • Conocimiento intermedio de Python

  • Comprensión básica de los conceptos de aprendizaje automático

  • Familiaridad con modelos de lenguaje grande (LLMs)

¿Qué aprenderás?

Introducción a los LLM
Aprende cómo los modelos de lenguaje grande auto-regresivos generan texto un token a la vez.
Almacenamiento en Caché de KV
Implementa el almacenamiento en caché de KV y comprende su impacto en el rendimiento y la latencia de la inferencia.
Agrupamiento Continuo
Explora técnicas de agrupamiento continuo y sus beneficios para servir a múltiples usuarios.
Cuantización de Modelos
Aprende sobre la cuantización de modelos y cómo afecta el rendimiento y la eficiencia.
Adaptadores de Bajo Rango (LoRA)
Comprende cómo funcionan los adaptadores LoRA y su papel en servir múltiples modelos ajustados.
Evaluación Comparativa
Evalúa los impactos de varias técnicas en el rendimiento y la latencia de la inferencia.
Implementación en el Mundo Real
Trabaja con el servidor de inferencia del marco LoRAX de Predibase para ver las técnicas de optimización en acción.

Conozca a su instructor

  • Travis Addair

    No hay biografía disponible

Próximos cohortes

  • Fechas

    comienza ahora

Libre