Logo de Mydra
Artificial Intelligence
DeepLearning.AI logo

DeepLearning.AI

Aprendizaje por Refuerzo a partir de Retroalimentación Humana

  • hasta 1 hora
  • Intermedio

Obtén una comprensión conceptual del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), así como de los conjuntos de datos necesarios para esta técnica. Ajusta el modelo Llama 2 utilizando RLHF con la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto y evalúa el rendimiento del modelo ajustado en comparación con el modelo base utilizando métodos de evaluación.

  • Aprendizaje por Refuerzo a partir de Retroalimentación Humana
  • Ajuste fino de LLMs
  • Biblioteca de Componentes de Pipeline de Google Cloud
  • Evaluación de modelos
  • Análisis de curvas de pérdida

Resumen

En este curso, obtendrás una comprensión conceptual del proceso de entrenamiento de RLHF y luego practicarás aplicando RLHF para ajustar un LLM. Explorarás los dos conjuntos de datos que se utilizan en el entrenamiento de RLHF: los conjuntos de datos de 'preferencia' y 'prompt'. Utiliza la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto para ajustar el modelo Llama 2 con RLHF. Evalúa el LLM ajustado en comparación con el modelo base original comparando curvas de pérdida y utilizando el método 'Side-by-Side (SxS)'.

  • Web Streamline Icon: https://streamlinehq.com
    Online
    ubicación del curso
  • Layers 1 Streamline Icon: https://streamlinehq.com
    Inglés
    idioma del curso
  • A tu propio ritmo
    formato del curso
  • Clases En vivo
    entregado en línea

¿Para quién es este curso?

Desarrolladores de Python

Cualquiera con conocimientos intermedios de Python que esté interesado en aprender sobre el uso de la técnica de Aprendizaje por Refuerzo a partir de Retroalimentación Humana.

Entusiastas de la IA

Individuos que buscan entender cómo alinear modelos de lenguaje grandes con valores y preferencias humanas.

Científicos de Datos

Profesionales que buscan ajustar modelos de lenguaje utilizando técnicas avanzadas como RLHF.

Este curso ofrece una inmersión profunda en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), un método clave para alinear modelos de lenguaje grandes con valores y preferencias humanas. Ideal para desarrolladores de Python, entusiastas de la IA y científicos de datos, este curso te ayudará a ajustar LLMs y evaluar su rendimiento, avanzando tus habilidades y carrera en IA.

Requisitos Previos

1 / 3

  • Conocimientos intermedios de Python

  • Comprensión básica de conceptos de aprendizaje automático

  • Familiaridad con modelos de lenguaje grandes (LLMs)

¿Qué aprenderás?

Introducción a RLHF
Obtén una comprensión conceptual del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y su importancia en alinear LLMs con valores y preferencias humanas.
Conjuntos de Datos para RLHF
Explora los dos conjuntos de datos utilizados en el entrenamiento de RLHF: los conjuntos de datos de 'preferencia' y 'prompt'.
Uso de la Biblioteca de Componentes de Pipeline de Google Cloud
Aprende a utilizar la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto para ajustar el modelo Llama 2 con RLHF.
Evaluación de Modelos
Evalúa el LLM ajustado en comparación con el modelo base original comparando curvas de pérdida y utilizando el método 'Side-by-Side (SxS)'.

Conozca a su instructor

  • Nikita Namjoshi

    Defensor del Desarrollador para IA Generativa en Google Cloud

Próximos cohortes

  • Fechas

    comienza ahora

Libre