Skip to content

Latest commit

 

History

History
85 lines (67 loc) · 5.73 KB

yandex-gpt-week.md

File metadata and controls

85 lines (67 loc) · 5.73 KB

GPT Week (23-НОЯ - 01-ДЕК 2023)

https://shad.yandex.ru/gptweek

Интенсив GPT Week: 01 Введение в большие языковые модели

Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT

Интенсив GPT Week: 02 Про претрейн LLM

Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT

Ссылки:

Интенсив GPT Week: 03 Подготовка данных для обучения претрейна и замер качества больших языковых моделей

Спикер: Лёша Зотов, руководитель группы качества данных YandexGPT

Ссылки:

Интенсив GPT Week : 04 Alignment

Спикер: Паша Темирчев, разработчик группы поиска смысла

Ссыллки:

  1. A General Language Assistant as a Laboratory for Alignment

Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.

  1. Reinforcement Learning Textbook, Ivanov S.

Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем).

  1. Proximal Policy Optimization

РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment. В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.

  1. Direct Preference Optimization
    Метод alignment'а, с которым мы познакомимся на семинаре

Интенсив GPT Week : 05 Ускорение инференса LLM

Рома Горб, разработчик группы претрейна YandexGPT

Ссылки: