Skip to content

Latest commit

 

History

History
74 lines (62 loc) · 9.97 KB

README.md

File metadata and controls

74 lines (62 loc) · 9.97 KB

Открытый курс OpenDataScience по машинному обучению

ODS stickers

❗ Новая сессия стартовала 6 сентября 2017 г. Тут подробное описание активностей в течение курса. А вот и календарь дедлайнов ❗

Статья про курс на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале mlcourse_open. Заявка на вступление.

В статьях курса даются теоретические основы машинного обучения. Навыки практического анализа данных и построения прогнозных моделей можно получить через выполнение домашних заданий и индивидуального проекта, а также за счет участия в 2 соревнованиях по анализу данных. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы с гуру Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов

Домашние задания

  1. Анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
  2. Визуальный анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
  3. Деревья решений для классификации и регрессии, ipynb. Реализация дерева решений (опционально, не в зачет рейтинга). ipynb
  4. Логистическая регрессия в задаче тегирования вопросов StackOverflow. ipynb
  5. Случайный лес и логистическая регрессия в задачах кредитного скоринга и классификации отзывов к фильмам. ipynb
  6. Исследование признаков на примере поездок такси в Чикаго. ipynb
  7. Обучение без учителя. ipynb
  8. Vowpal Wabbit в задаче прогнозирования популярности статьи на Хабре. ipynb
  9. Временные ряды. ipynb
  10. Прогнозирование задержек вылетов. Дедлайн: 14 ноября 23:59 UTC +3. ipynb

Соревнования

  1. Идентификация пользователя по последовательности посещенных сайтов ("Элис"). Kaggle Inclass
  2. Прогноз популярности статьи на портале Medium.com. Arktur.io. Первые шаги: ipynb

Проекты

  1. Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
  2. Индивидуальные проекты. Описаны на Wiki.

Рейтинг

На рейтинг участников влияют домашки, соревнования, проекты, тьюториалы и мини-конкурсы по визуализации данных. Подробно все описано на Wiki.

Wiki-страницы этого репозитория: