Выполненные проекты за время обучения в Яндекс.Практикум по направлению "Специалист по Data Science"
Проекты расположены в хронолигическом порядке их выполнения.
Название | Описание | Инструменты | Ключевые слова |
---|---|---|---|
Исследование рынка недвижимости | Исследование данных и выявление факторов влияющих на цену квартиры. | numpy pandas matplotlib |
EDA, analysis, feature engineering |
Исследование надёжности заёмщиков банка | Обработка и исследование данных для выявления зависимостей на влияющих на платёжеспособность клииента банка. Построена модель кредитного скоринга. | pandas pymystem ntlk matplotlib |
EDA, NLP, feature engineering |
Определение выгодного тарифа для телеком компании | Определение выгодного тарифа на основании данных о использовании услуг клиентами. Проанализированы данные и проверены гипотезы. | numpy pandas matplotlib scipy |
EDA, analysis, hypotesys testing |
Анализ рынка компьютерных игр | Анализ данных о продажах компьютерных игр и проверка гипотез. | pandas matplotlib scipy |
EDA, statistics, hypotesys testing |
Прогнозирование оттока клиентов банка | Создание модели для предсказания оттока клиентов из банка на основании данных о поведении клиентов. Целью является снижение затрат на сохранение клиентов. | numpy pandas matplotlib sklearn SMOTE |
EDA, analysis, feature engineering, ROC-AUC, upsampling, unbalanced classification |
Определение региона для бурения новой скважины по прогнозируемой прибыли | Создание модели для прогноза прогнозируемой прибыли от нефтяных скважин. На основании прогноза определения наилучшего региона для бурения | numpy pandas matplotlib sklearn |
EDA, analysis, regression, bootstrap, econometrics |
Предсказывание коэффициента восстановления золота из золотосодержащей руды | Анализ и обработка данных. Проанализированы данные с параметрами добычи и очистки руды. Построена и обучена модель, помогающая оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. | numpy pandas sklearn CatBoost matplotlib seaborn shap |
EDA, regression,custom metric, feature importance |
Определение рыночной стоимости автомобиля | Создание модели градиентного бустинга с максимальной точностью и минимальным временем обучения и предсказания цены. Сравнение скорости обучения и предсказания. | pandas matplotlib sklearn CatBoost LightGBM |
EDA, analysis, regression, gradient boosting |
Предсказание заказов такси в аэропорт | Создание модели предсказания количества заказов такси в аэропорт для обеспечения наличия необходимого числа водителей. | pandas matplotlib sklearn CatBoost statsmodels |
Time Series, regression |
Определение токсичных комментариев | Определение токсичных комментариев используя модели NLP. | numpy pandas sklearn spacy textblob nltk |
NLP, classification, TF-IDF |
Определение возраста человека по фото | Создание neural network модели определения возраста по фото. В качестве дополнительного проекта создала модель определения фрукта по фото. | pandas keras |
CV, CNN, ResNet, classification |
Прогнозирование температуры стали на металлургическом предприятии | Анализ и обработка данных, извлечение значимых для модели признаков. Построена модель предсказания температуры стали. | numpy pandas sklearn CatBoost matplotlib seaborn shap |
EDA, feature engineering, feature selection, feature importance, tuning hyperparams |