Aprendizaje por Refuerzo a partir de Retroalimentación Humana

hasta 1 hora
Intermedio

Obtén una comprensión conceptual del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), así como de los conjuntos de datos necesarios para esta técnica. Ajusta el modelo Llama 2 utilizando RLHF con la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto y evalúa el rendimiento del modelo ajustado en comparación con el modelo base utilizando métodos de evaluación.

Aprendizaje por Refuerzo a partir de Retroalimentación Humana
Ajuste fino de LLMs
Biblioteca de Componentes de Pipeline de Google Cloud
Evaluación de modelos
Análisis de curvas de pérdida

Resumen

En este curso, obtendrás una comprensión conceptual del proceso de entrenamiento de RLHF y luego practicarás aplicando RLHF para ajustar un LLM. Explorarás los dos conjuntos de datos que se utilizan en el entrenamiento de RLHF: los conjuntos de datos de 'preferencia' y 'prompt'. Utiliza la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto para ajustar el modelo Llama 2 con RLHF. Evalúa el LLM ajustado en comparación con el modelo base original comparando curvas de pérdida y utilizando el método 'Side-by-Side (SxS)'.

Online
ubicación del curso
Inglés
idioma del curso
A tu propio ritmo
formato del curso
Clases En vivo
entregado en línea

¿Para quién es este curso?

Desarrolladores de Python

Cualquiera con conocimientos intermedios de Python que esté interesado en aprender sobre el uso de la técnica de Aprendizaje por Refuerzo a partir de Retroalimentación Humana.

Entusiastas de la IA

Individuos que buscan entender cómo alinear modelos de lenguaje grandes con valores y preferencias humanas.

Científicos de Datos

Profesionales que buscan ajustar modelos de lenguaje utilizando técnicas avanzadas como RLHF.

Este curso ofrece una inmersión profunda en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), un método clave para alinear modelos de lenguaje grandes con valores y preferencias humanas. Ideal para desarrolladores de Python, entusiastas de la IA y científicos de datos, este curso te ayudará a ajustar LLMs y evaluar su rendimiento, avanzando tus habilidades y carrera en IA.

Requisitos Previos

1 / 3

Conocimientos intermedios de Python
Comprensión básica de conceptos de aprendizaje automático
Familiaridad con modelos de lenguaje grandes (LLMs)

¿Qué aprenderás?

Introducción a RLHF

Obtén una comprensión conceptual del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y su importancia en alinear LLMs con valores y preferencias humanas.

Conjuntos de Datos para RLHF

Explora los dos conjuntos de datos utilizados en el entrenamiento de RLHF: los conjuntos de datos de 'preferencia' y 'prompt'.

Uso de la Biblioteca de Componentes de Pipeline de Google Cloud

Aprende a utilizar la Biblioteca de Componentes de Pipeline de Google Cloud de código abierto para ajustar el modelo Llama 2 con RLHF.

Evaluación de Modelos

Evalúa el LLM ajustado en comparación con el modelo base original comparando curvas de pérdida y utilizando el método 'Side-by-Side (SxS)'.

Conozca a su instructor

Nikita Namjoshi
Defensor del Desarrollador para IA Generativa en Google Cloud

Próximos cohortes

Costo
Libre
Duración
1 hora
Fechas
comienza ahora
Ubicación
Online

Libre