Я выбрала данные связанные с баскебольной лигой NBA (статистика и показатели игроков). Все таблицы находятся в директории /nba
.
Задание реализовано на языках программирования R
и Python
с использованием различных библиотек для анализа данных.
- Реализовать аппроксимацию распределений данных с помощью ядерных оценок.
- Реализовать анализ данных с помощью
cdplot
,dotchart
,boxplot
иstripchart
. - Проверить, являются ли наблюдения выбросами с точки зрения формальных статистических критериев Граббса и Q-теста Диксона. Визуализировать результаты.
- Воспользоваться инструментами для заполнения пропусков в данных. Пропуски внести вручную и сравнить результаты заполнения с истинными значениями.
- Сгенерировать данные из нормального распределения с различными параметрами и провести анализ с помощью графиков эмпирических функций распределений, квантилей, метода огибающих, а также стандартных процедур проверкигипотез о нормальности(критерии Колмогорова-Смирнова, Шапиро-Уилка, Андерсона-Дарлинга, Крамера фон Мизеса, Колмогорова-Смирнова в модификации Лиллиефорса и Шапиро-Франсия). Рассмотреть выборки малого (не более 50-100 элементов) и умеренного (1000-5000 наблюдений) объемов.
- Продемонстрировать примеранализаданныхс помощью графиков квантилей, метода огибающих, а также стандартных процедур проверки гипотез о нормальности. Рассмотреть выборки малого и умеренного объемов.
- Продемонстрироватьприменение для проверки различных гипотези различных доверительных уровней (0.9, 0.95, 0.99) следующих критериев:
- Стьюдента, включая односторонние варианты, когда проверяемая нулевая гипотеза заключается в том, что одно из сравниваемых средних значений больше (или меньше) другого. Реализовать оценку мощности критериев при заданном объеме выборки или определения объема выборки для достижения заданной мощности;
- Уилкоксона-Манна-Уитни (ранговые);
- Фишера, Левене, Бартлетта, Флигнера-Килина (проверка гипотез об однородности дисперсий).
- Исследовать корреляционные взаимосвязи вданных с помощью коэффициентов корреляции Пирсона, Спирмена и Кендалла.
- Продемонстрировать использование методов хи-квадрат, точного теста Фишера, теста МакНемара, Кохрана-Мантеля-Хензеля.
- Проверить наличие мультиколлинеарности в данных с помощью корреляционной матрицы и фактораинфляции дисперсии.
- Исследовать зависимости в данных с помощью дисперсионного анализа.
- Подогнать регрессионные модели (в том числе, нелинейные) к данным, а также оценить качество подобной аппроксимации.