https://shad.yandex.ru/gptweek
Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT
Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT
Ссылки:
- Трансформеры и Attention
- GPT-3
- Поиск оптимального времени обучения для моделей
- Llama: https://arxiv.org/abs/2302.13971 и https://arxiv.org/abs/2307.09288
- Adan
- FSDP
- DeepSpeed - фреймворк для распределенного обучения. Мы от него отошли, но там куча полезных статей: https://www.deepspeed.ai/
- RoPE
Интенсив GPT Week: 03 Подготовка данных для обучения претрейна и замер качества больших языковых моделей
Спикер: Лёша Зотов, руководитель группы качества данных YandexGPT
Ссылки:
- Training Compute-Optimal Large Language Models (Hoffman et al., 2022)
- Scaling Data-Constrained Language Models (Muennighoff et al., 2023)
- The RefinedWeb Dataset for Falcon LLM
- Nougat: Neural Optical Understanding for Academic Documents
- Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
- Объяснение Minhash + LSH алгоритма
- D4: Improving LLM Pretraining via Document De-Duplication and Diversification
- Textbooks Are All You Need
- In-Context Pretraining: Language Modeling Beyond Document Boundaries
- DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
Спикер: Паша Темирчев, разработчик группы поиска смысла
Ссыллки:
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем).
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment. В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
- Direct Preference Optimization
Метод alignment'а, с которым мы познакомимся на семинаре
Рома Горб, разработчик группы претрейна YandexGPT
Ссылки: