Этот репозиторий содержит файлы скриптов на языке R и наборы данных, необходимые для выполнение лабораторных работ из книги "Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. Введение в статистическое обучение с примерами на языке R. Пер. с англ. С. Э. Мастицкого - М.: ДМК Пресс, 2016. – 449 с.: ил." (оригинальное название "An Introduction to Statistical Learning with Applications in R").
Репозиторий разбит на две директории:
Code
: примеры кода для каждой главыData
: соответствующие наборы данных
В файле sample.pdf
можно ознакомиться с оглавлением и отрывками из первых двух глав книги.
С вопросами и предложениями по поводу содержания этого репозитория обращайтесь, пожалуйста, по электронной почте.
К сожалению, после публикации первого издания (апрель 2016 г.) в книге был найден ряд опечаток и ошибок технического характера (огромное спасибо всем читателям, которые сообщили о них!). С их списком можно ознакомиться ниже. Все эти неточности и ошибки будут учтены в последующих изданиях.
-
Опечатки в матрице, представленной вверху на стр. 23: эта матрица должна выглядеть следующим образом:
-
Лишнее слово в начале 2-го абзаца на стр. 28: вместо "...на образование (years of education; ..." должно быть "на образование (years; ..."
-
Лишнее слово в начале 2-го абзаца на стр. 27: вместо "...тогда как sales - это выходной переменной..." должно быть "тогда как sales - выходной переменной"
-
Пропущено слово в конце 3-го абзаца на стр. 30: вместо "...в зависимости условий производства..." должно быть "...в зависимости от условий производства"
-
Опечатка в первом абзаце на стр. 41: должно быть "...(т.е. переменной с двумя..."
-
Стр. 44-46, рисунки 2.9-2.11 (справа): перепутаны подписи осей. Ось X должна быть подписана как "Гибкость", а ось Y - как "Среднеквадратичная ошибка"
-
Опечатка в 1-м абзаце на стр. 58: должно быть "...при вызове этой функции...", а не "...при вызове этой функций..."
-
Опечатка во 2-м абзаце на стр. 58: должно быть "...воспроизводил один и тот же набор...", а не "...воспроизводил один тот же набор..."
-
Стр. 58: Вместо sd() на поля второй раз ошибочно вынесено mean()
-
Опечатка в последнем предложении на стр. 59: должно быть "...значений y...", а не "...значения y..."
-
Опечатка в конце 2-го абзаца на стр. 60: вместо "?controur" должно быть "?contour"
-
Опечатка в 4-м абзаце на стр. 62: вместо "read.table()" должно быть "read.csv()"
-
Лишнее слово во 2-м абзаце на стр. 65: вместо "...у нас есть имеется..." должно быть "...у нас имеется..."
-
Опечатка в пункте 9(а) на стр. 69: вместо "Какие предикторы явлются..." должно быть "Какие предикторы являются..."
-
Стр. 79, 4-я строка сверху, пропущено слово: вместо "...95-ный доверительный для..." должно быть "...95-ный доверительный интервал для..."
-
Стр. 79, после уравнения (3.13): вместо "...против
$H_0:$ ..." должно быть "...против$H_a:$ ..." -
Опечатка на стр. 84, после уравнения (3.19): вместо "$b_j$" дожно быть "$beta_j$"
-
Опечатки на стр. 92, 3-й абзац сверху: 1) вместо "...при добавлении newspapers в модель..." должно быть "...при добавлении newspaper в модель..."; 2) вместо "...p–значение для radio было незначимым." должно быть "p–значение для newspaper было незначимым."
-
Стр. 92, последний абзац: первое предложение в этом абзаце должно выглядеть следующим образом: "RSE у модели, содержащей в качестве предикторов только TV и radio, составляет 1.681, а у модели, которая включает также newspaper, RSE = 1.686 (табл. 3.6)."
-
Стр. 99: заголовок "Расширения линейной модели" должен быть заголовком подраздела, "3.3.2 Расширения линейной модели"
-
Стр. 100, уравнение (3.32): член "beta_3 X_1 X_2" после первого знака "=" лишний.
-
Стр. 102, уравнение (3.34): это уравнение должно выглядеть следующим образом:
-
Стр. 105, неверная нумерация подраздела: вместо "3.3.1 Потенциальные проблемы" должно быть "3.3.3 Потенциальные проблемы"
-
Стр. 110, последний абзац: слово "этого" в последнем предложении лишнее.
-
Стр. 111, рисунок 3.11 (справа): опечатка в подписи оси Х. Вместо "Показтель" должно быть "Показатель"
-
Опечатка на стр. 112, 4-я строка снизу: вместо "...этом рисунке..." должно быть "...на этом рисунке..."
-
Опечатка на стр. 114, 2-й абзац снизу: вместо "...для каждого предиктора рассчитывает путем..." должно быть "...для каждого предиктора рассчитывается путем..."
-
Стр. 115, таблица 3.11: эта таблица должна выглядеть следующим образом:
-
Опечатка на стр. 116, 12-я строка сверху: должно быть "минимально" вместо "минимиально"
-
Опечатка на стр. 117, 2-я строка сверху: должно быть "реклама на телевидении" вместо "реклама не телевидении"
-
Опечатка на стр. 117, 2-й абзац: вместо "...с количеством продажам." должно быть "...с количеством продаж."
-
Стр. 122, подпись к рис. 3.19: эта подпись ошибочно была скопирована с подписи к рис. 3.18. Правильная подпись должна выглядеть следующим образом:
"Слева вверху: Приведены KNN–модели с K = 1 (голубая кривая) и K = 9 (красная кривая) для случая со слабой нелинейной зависимостью между X и Y (черная сплошная кривая). Справа вверху: Показаны MSE на контрольной выборке для линейной регрессии по методу наименьших квадратов (горизонтальная черная линия) и для KNN–моделей с разными значениями 1/K (зеленая кривая), подогнанных к данным со слабой нелинейной зависимостью. Слева и справа внизу: То же, что и вверху, но для случая с выраженной нелинейной зависимостью между X и Y"
-
Стр. 127, перед последним блоком кода: вместо "rstudent()" на поле страницы должно быть вынесено "hatvalues()"
-
Стр. 131, абзац после первого блока с кодом: продублирована следующая часть текста: "Здесь модель M1 ... зависимости между medv и lstat." Как следствие, продублировано и примечание к этому тексту и нарушена нумерация всех последующих примечаний в предалах главы 3
-
Ошибки на стр. 135, пункт 3: вместо "Независимой переменной является начальная заработная плата после окончания университете..." должно быть "Зависимой переменной является начальная заработная плата после окончания университета..."
-
Опечатка на стр. 137, пункт 8, подпункт (а) iii: вместо "Каково направление связь..." должно быть "Каково направление связи..."
-
Стр. 138, пункт 10, подпункт (e): слово "было" продублировано
-
Стр. 143, опечатки в первых двух предложениях 1-го абзаца: должно быть "...зависимая переменная Y является..." и "...часто зависимая переменная является...". На той же странице, 2-й абзац: должно быть "...три наиболее широко распространенных классификатора: логистическую регрессиию..."
-
Стр. 146, 5-й абзац сверху: должно быть "...нелегко приспособить для качественных откликов" и "...предназначены для качественных откликов."
-
Опечатка на стр. 148, 3-й абзац сверху: вместо "Для подгонки модели (4.1)..." должно быть "Для подгонки модели (4.2)..."
-
Стр. 152, 5-я строка снизу: слово "предложить" продублировано
-
Стр. 154, в конце первого абзаца: должно быть "...такой подход возможен и программное обеспечение..."
-
Стр. 156, опечатка в начале 3-го раздела: вместо "(Заметьте, что
$\pi_k$ в (4.14)..." должно быть "(Заметьте, что$\pi_k$ в (4.12)" -
Стр. 156, опечатка в уравнении (4.14): "мю" в знаменателе после первого знака "равно" не должны возводиться в квадрат
-
Стр. 156, опечатка в конце 3-го абзаца сверху: вместо "...Таким образом, что LDA хорошо..." должно быть "Таким образом, LDA хорошо..."
-
Стр. 170, пропущено слово в середине 2-го абзаца сверху: вместо "...тогда существенно более гибкий..." должно быть "...тогда как существенно более гибкий..."
-
Стр. 176, опечатка в 1-м абзаце: вместо "...предсказанных случая" должно быть "...предсказанных случаев"
-
Стр. 176, опечатка во 2-м абзаце (6-я строка): вместо "...частоты ошибок на обучающих..." должно быть "...частота ошибок на обучающих..."
-
Стр. 177. 1-й листинг: строки с 4-й по 6-ю должны идти после последней строки во 2-м листинге на той же странице
-
Стр. 191, опечатка в пункте d: вместо "...в объекте по названием..." должно быть "...в объекте под названием..."
-
Опечатка на стр. 198 в термине, вынесенном на поле страницы: должно быть "k-кратная" вместо "k-крантная"
-
Стр. 212, 2-й абзац, пропущено слово: вместо "...в пользу того, полиномы..." должно быть вместо "...в пользу того, что полиномы..."
-
Опечатки на стр. 214, предпоследний абзац: вместо "К обсуждалось в подразделе 3.2.1..." должно быть "Как обсуждалось в подразделе 3.1.2..."
-
Опечатка в 1-м абзаце на стр. 224: вместо "...но прим этом..." должно быть "...но при этом..."
-
Опечатка на стр. 231, первый абзац: должно быть "...пропорциональны друг другу..." вместо "...пропорциональных друг другу..."
-
Опечатка на стр. 237, середина первого абзаца: должно быть "...приводит к существенному..." вместо "...приводит в существенному..."
-
Стр. 239, формула 6.7: у второй и третьей суммы в качестве индекса указано i, а должно быть j
-
Стр. 240, 1-й абзац: неверный порядок перечисления моделей: должно быть "...коэффициентов лассо-модели и гребневой регрессии..."
-
Опечатка на стр. 241, 4-й абзац: вместо "...раны нулю?" должно быть "...равны нулю?"
-
Опечатка на стр. 252 в уравнении (6.19): коэффициент при первом слагаемом должен быть 0.839, а не 0.893
-
После 2-го абзаца на стр. 252 пропущен следующий небольшой абзац:
-
Стр. 256: продублировано слово в "Это связано с тем, что что..."
-
Стр. 260, опечатка в последнем предложении пункта 2: вместо "...намного превышает этого значение" должно быть "намного превышает это значение"
-
Стр. 263, опечатка в первом абзаце: вместо "Рисунок 24..." должно быть "Рисунок 6.24..."
-
Стр. 264, опечатка в конце первого абзаца: вместо "...качественными предсказательным моделям..." должно быть "...качественным предсказательным моделям..."
-
Первый листинг кода на стр. 266: элементы
{
и> mean(store)
не нужны -
Опечатки на стр. 266, 2-й абзац: в тексте и на полях вместо
regsubset()
должно бытьregsubsets()
-
Опечатка на стр. 270, 1-й абзац: вместо
regsubset()
должно бытьregsubsets()
-
Опечатка на стр. 274, 1-я строка 2-го листинга: вместо
ridge.mod$lambda[60]
должно бытьridge.mod$lambda[50]
-
Опечатка на стр. 276, в конце 2-го абзаца: вместо "...зернj генератора..." должно быть "...зерно генератора..."
-
Опечатка на стр. 278, 1-й абзац: вместо "...библиотеки pls()." должно быть "...библиотеки pls."
-
Опечатка на стр. 280, 1-й абзац: вместо "...библиотеки pls()." должно быть "...библиотеки pls."
-
Пропущено слово на стр. 288, в конце 1-го абзаца: вместо "...более сложные подходы, такие сплайны..." должно быть "...более сложные подходы, такие как сплайны..."
-
Опечатка на стр. 289, уравнение (7.1): пропущен знак
+
перед эпсилон -
Опечатка на стр. 291 в термине, вынесенном на поля: вместо "катетегориальная" должно быть "категориальная"
-
Опечатка в сноске на стр. 292: вместо "...перечисленных в (5.7)..." должно быть "...перечисленных в (7.5)..."
-
Опечатка на стр. 302: вместо "...через всех обучающие..." должно быть "...через все обучающие..."
-
Опечатка на стр. 305, пункт 3 Алгоритма 7.1: вместо "...нахождения
$\hat{\beta}_1$ и$\hat{\beta}_2$ ..." должно быть "...нахождения$\hat{\beta}_0$ и$\hat{\beta}_1$ ..." -
Опечатка в формуле (7.15) на стр. 308: в первой строке этого уравнения должно быть
$f_j$ , а не$f_i$ . Кроме того, во второй строке вместо$f_1(x_{ij})$ должно быть$f_1(x_{i1})$ -
Опечатки во 2-м абзаце на стр. 308: и у f, и у X индекс должен обозначаться буквой j, а не i
-
Стр. 308, 3-й абзац: пропущен один из уровней переменной
education
, т.е. должно быть "...переменной с пятью уровнями - <HS, HS, <Coll, Coll, >Coll..." -
Стр. 312, опечатка в подписи к рис. 7.13: вместо "...из таблицы I(Wage)." должно быть "...из таблицы Wage."
-
Стр. 313, опечатка в термине, вынесенном на поля: вместо "отогональные полиномы" должно быть "ортогональные полиномы"
-
Стр. 319, опечатка во предпоследнем абзаце: вместо "...ширины окна 0.1 и 0.5..." должно быть "...ширины окна 0.2 и 0.5..."
-
Стр. 321, опечатка во 1-м абзаце: вместо "...которая не вообще не содержит..." должно быть "...которая вообще не содержит..."
-
Стр. 322, продублировано слово во 2-м абзаце: вместо "При построении построении..." должно быть "При построении..."
-
Стр. 323, строки 3, 7 и 11: при перечислении коэффицентов модели пропущен
$\beta_3$ . -
Стр. 332, опечатка во 3-м абзаце: вместо "...быстро, особенное когда количество..." должно быть "...быстро, особенно когда количество..."
-
Стр. 351, опечатка в последнем абзаце: вместо "В этом наборе данных Seats..." должно быть "В этом наборе данных Sales..."
-
Стр. 355, опечатка в последнем абзаце: вместо "rm > 7.437" должно быть "rm >= 7.437"
-
Стр. 359, опечатка во 2-м абзаце: вместо "...по контрольной данным:" должно быть "...по контрольным данным:"
-
Стр. 366, опечатка во 2-м абзаце: вместо "...показаны на слева рис. 9.2." должно быть "...показаны на слева на рис. 9.2."
-
Стр. 367, последний абзац: в формуле для
$f(x*)$ пропущен коэффициент$\beta_0$ -
Стр. 371, опечатка в названии раздела: должно быть "...на опорных векторах"
-
Стр. 374, формула (9.15): между знаком суммы и знаком "меньше либо равно" не хватает
$\epsilon_i$ -
Стр. 375, 4-я строка сверху: между знаком суммы и знаком "меньше либо равно" не хватает
$\epsilon_i$ -
Стр. 378, последняя строка уравнения (9.16): у первого знака суммы индексирование должно выполняться по i, а не j
-
Стр. 383, опечатка в 1-м абзаце: вместо "...статистически значимыми" должно быть "... статистически значимым"
-
Стр. 385, 1-й абзац: продублировано слово в "...связи между между SVM..."
-
Стр. 386, опечатка во 2-м абзаце: вместо "...на логистическую регрессии..." должно быть "...на логистическую регрессию..."
-
Стр. 401, опечатка в 1-м абзаце: вместо "...?plot.smv" должно быть "...?plot.svm"
-
Стр. 404. 5-й абзац, "...в виду то обстоятельство, что формула...": в этой формуле знак = перед фи не нужен
-
Стр. 405. 2-й абзац: знак = между занком суммы и фи не нужен
-
Стр. 406. ошибка в последнем абзаце: вместо "...и очень низкий вес переменной Assault" должно быть "...и очень низкий вес переменной UrbanPop"
-
Стр. 408, опечатки в 4-м абзаце: вместо "...максимальной близко к n наблюдениям" должно быть "...расположенную максимально близко к n наблюдениям"
-
Стр. 408, формула (10.5): эта формула должна выглядеть следующим образом:
-
Стр. 409, опечатка в подписи к рис. 10.2: вместо "...до плоскости мнимальна" должно быть "...до плоскости минимальна"
-
Стр. 410, первая строка: должно быть "UrbanPop", а не "UrbabPop"
-
Стр. 426, опечатка в последнем абзаце: вместо "До сих в примерах..." должно быть "До сих пор в примерах..."
-
Стр. 427, опечатка в первом абзаце: вместо "...она рассчитываться..." должно быть "...она рассчитывается..."
-
Стр. 429, 1-й абзац: в "...чтобы их стандартные стали равны 1" пропущено слово "отклонения"
-
Стр. 433, опечатка в 4-м абзаце: вместо "Используя функцию prcom()..." должно быть "Используя функцию prcomp()..."
-
Стр. 437, 1-й абзац": следует читать "Не менее легко мы могли бы выполнить иерархическую кластеризацию на основе среднего или одиночного присоединения:"
-
Стр. 437, 3-й листинг, 1-я строка: эта строка не нужна
-
Опечатка на стр. 440, последний абзац: вместо "...а элементы cumsum(pre)..." должно быть "...а элементы cumsum(pve)..."
-
Стр. 442, рис. 10.17, перепутаны заголовки графиков: Сначала должно идти "Полное присоединение", а затем - "Среднее присоединение". Соответственно, в подписи к этому рисунку должно быть "...на основе полного, среднего и одиночного типов..."