Этот проект представляет собой реализацию и анализ метода WARP (Weight Averaged Rewarded Policies) для алаймента языковых моделей на датасете IMDB.
warp-alignment/
│
├── data/
│ └── README.md
│
├── src/
│ ├── data_preparation.py
│ ├── reward_model.py
│ ├── warp_implementation.py
│ ├── training_evaluation.py
│ └── hyperparameter_experiments.py
│
├── notebooks/
│ ├── 01_data_exploration.ipynb
│ ├── 02_reward_model_training.ipynb
│ ├── 03_warp_training.ipynb
│ └── 04_results_analysis.ipynb
│
├── configs/
│ └── config.yaml
│
├── results/
│ ├── figures/
│ └── models/
│
├── tests/
│ ├── test_data_preparation.py
│ ├── test_reward_model.py
│ └── test_warp_implementation.py
│
├── requirements.txt
├── setup.py
├── README.md
└── report.md
-
Клонируйте репозиторий:
git clone https://github.com/ADanMan/warp-alignment.git cd warp-alignment
-
Создайте виртуальное окружение и активируйте его:
python -m venv venv source venv/bin/activate # На Windows используйте venv\Scripts\activate
-
Установите зависимости:
pip install -e .
-
Исследование данных:
jupyter notebook notebooks/01_data_exploration.ipynb
-
Обучение модели наград:
python src/reward_model.py
-
Обучение с использованием WARP:
python src/warp_implementation.py
-
Проведение экспериментов с гиперпараметрами:
python src/hyperparameter_experiments.py
-
Анализ результатов:
jupyter notebook notebooks/04_results_analysis.ipynb
Для запуска тестов используйте:
pytest tests/
Подробный отчет о проведенных экспериментах и анализ результатов доступен в файле report.md.
Этот проект распространяется под лицензией MIT. Подробности см. в файле LICENSE.