У цьому підручнику ви дізнаєтесь
- Проста лінійна регресія
- Багаторазова лінійна регресія
- Безперервні змінні
- Фактори регресії
- Поетапна регресія
- Машинне навчання
- Навчання під контролем
- Навчання без нагляду
Проста лінійна регресія
Лінійна регресія відповідає на просте запитання: Чи можете ви виміряти точну залежність між однією цільовою змінною та набором предикторів?
Найпростішою з імовірнісних моделей є пряма модель:
де
- y = Залежна змінна
- x = Незалежна змінна
- = випадкова складова помилки
- = перехоплення
- = Коефіцієнт x
Розглянемо наступний сюжет:
Рівняння - це перетин. Якщо x дорівнює 0, y буде дорівнює перехопленню, 4.77. - нахил лінії. Він повідомляє, в якій пропорції y змінюється, коли x змінюється.
Щоб оцінити оптимальні значення , ви використовуєте метод, який називається Звичайні найменші квадрати (OLS) . Цей метод намагається знайти параметри, які мінімізують суму квадратних помилок, тобто вертикальну відстань між передбачуваними значеннями y та фактичними значеннями y. Різниця відома як термін помилки .
Перш ніж оцінювати модель, ви можете визначити, чи вірогідний лінійний зв’язок між y та x, побудувавши графік розсіювання.
Діаграма розкиду
Ми використаємо дуже простий набір даних для пояснення концепції простої лінійної регресії. Ми імпортуємо середні висоти та ваги для американських жінок. Набір даних містить 15 спостережень. Ви хочете виміряти, чи висота позитивно корелює з вагами.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Вихід:
Графік розсіяння свідчить про загальну тенденцію збільшення y при збільшенні x. На наступному кроці ви будете вимірювати, на скільки збільшується для кожного додаткового.
Оцінки найменших квадратів
У простій регресії OLS обчислення є простим. Мета - не показати висновок у цьому посібнику. Ви напишете лише формулу.
Ви хочете оцінити:
Метою регресії OLS є мінімізація наступного рівняння:
де
є прогнозованим значенням.
Рішення для
Зверніть увагу, що означає середнє значення x
Рішення для
У R для оцінки можна використовувати функцію cov () та var (), а для оцінки
beta <- cov(df$height, df$weight) / var (df$height)beta
Вихід:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Вихід:
## [1] -87.51667
Бета-коефіцієнт передбачає, що для кожної додаткової висоти вага збільшується на 3,45.
Оцінка простого лінійного рівняння вручну не є ідеальною. R забезпечує відповідну функцію для оцінки цих параметрів. Ви побачите цю функцію незабаром. До цього ми представимо, як обчислити вручну просту модель лінійної регресії. У вашій подорожі вченого з даних ви навряд чи оціните просту лінійну модель. У більшості ситуацій завдання регресії виконуються на великій кількості оцінювачів.
Багаторазова лінійна регресія
Більш практичні програми регресійного аналізу використовують моделі, які є більш складними, ніж проста лінійна модель. Імовірнісна модель, що включає більше однієї незалежної змінної, називається множинною регресійною моделлю . Загальна форма цієї моделі:
У матричних позначеннях ви можете переписати модель:
Залежна змінна y тепер є функцією k незалежних змінних. Значення коефіцієнта .
Коротко вводимо припущення, яке ми зробили щодо випадкової помилки OLS:
- Середнє значення дорівнює 0
- Дисперсія дорівнює
- Нормальний розподіл
- Випадкові помилки незалежні (у імовірнісному сенсі)
Вам потрібно вирішити для , вектор коефіцієнтів регресії, які мінімізують суму квадратних помилок між передбачуваними та фактичними значеннями y.
Рішення закритої форми:
з:
- вказує транспонування матриці X
- позначає оборотну матрицю
Ми використовуємо набір даних mtcars. Ви вже знайомі з набором даних. Наша мета - передбачити милю на галон за набором функцій.
Безперервні змінні
Наразі ви будете використовувати лише безперервні змінні та відклавши категоричні ознаки. Змінна am - це двійкова змінна, яка приймає значення 1, якщо коробка передач ручна і 0 для автоматичних автомобілів; vs також є двійковою змінною.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Вихід:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Ви можете використовувати функцію lm () для обчислення параметрів. Основним синтаксисом цієї функції є:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Пам’ятайте, рівняння має такий вигляд
в Р
- Символ = замінено на ~
- Кожен х замінюється ім'ям змінної
- Якщо ви хочете скинути константу, додайте -1 в кінці формули
Приклад:
Ви хочете оцінити вагу людей залежно від їх зросту та доходу. Рівняння є
Рівняння в R записується так:
y ~ X1 + X2 +… + Xn # З перехопленням
Отже, для нашого прикладу:
- Зважте ~ висота + дохід
Ваша мета - оцінити милю на галон на основі набору змінних. Рівняння для оцінки:
Ви оціните свою першу лінійну регресію і збережете результат у об'єкті, що підходить.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Пояснення коду
- модель <- mpg ~ . disp + hp + drat + wt: Збережіть модель для оцінки
- lm (модель, df): оцініть модель за допомогою кадру даних df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
Результат не надає достатньо інформації про якість припасування. Ви можете отримати доступ до таких деталей, як значення коефіцієнтів, ступінь свободи та форма залишків за допомогою функції summary ().
summary(fit)
Вихід:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Висновок із наведеної вище таблиці
- Наведена таблиця доводить, що існує сильний негативний зв’язок між масою та пробігом та позитивний зв’язок з драт.
- Тільки змінна wt має статистичний вплив на mpg. Пам'ятайте, що для перевірки гіпотези в статистиці ми використовуємо:
- H0: Відсутність статистичного впливу
- H3: Провісник має значущий вплив на y
- Якщо значення р нижче 0,05, це означає, що змінна є статистично значущою
- Відрегульований R-квадрат: відхилення пояснюється моделлю. У вашій моделі модель пояснювала 82 відсотки дисперсії y. R у квадраті завжди між 0 і 1. Чим вище, тим краще
Ви можете запустити тест ANOVA, щоб оцінити вплив кожної ознаки на дисперсії за допомогою функції anova ().
anova(fit)
Вихід:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Більш звичним способом оцінки ефективності моделі є відображення залишків за різними показниками.
Ви можете використовувати функцію plot (), щоб показати чотири графіки:
- Залишки проти встановлених значень
- Графік звичайного QQ: Теоретичні квартилі проти стандартизованих залишків
- Розміщення шкали: Встановлені значення проти квадратних коренів стандартизованих залишків
- залишки проти кредитного плеча: кредитне племо проти стандартизованих залишків
Ви додаєте код par (mfrow = c (2,2)) перед графіком (підгонка). Якщо ви не додасте цей рядок коду, R запропонує вам натиснути команду enter, щоб відобразити наступний графік.
par(mfrow=(2,2))
Пояснення коду
- (mfrow = c (2,2)): повернути вікно з чотирма графіками поруч.
- Перші 2 додають кількість рядків
- Другі 2 додають кількість стовпців.
- Якщо ви пишете (mfrow = c (3,2)): ви створите вікно з 3 рядками з 2 стовпцями
plot(fit)
Вихід:
Формула lm () повертає список, що містить багато корисної інформації. Ви можете отримати до них доступ за допомогою створеного вами об'єкта, а потім знака $ та інформації, яку ви хочете отримати.
- коефіцієнти: `fit $ коефіцієнти`
- залишки: `підходить $ залишки`
- встановлене значення: `fit $ fit.values`
Фактори регресії
В останній оцінці моделі ви регресуєте mpg лише для безперервних змінних. Додавати змінні фактори до моделі просто. Ви додаєте змінну am до своєї моделі. Важливо бути впевненим, що змінна є фактором, а не постійною.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Вихід:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R використовує перший факторний рівень як базову групу. Потрібно порівняти коефіцієнти іншої групи з базовою групою.
Поетапна регресія
Остання частина цього підручника стосується алгоритму поетапної регресії . Метою цього алгоритму є додавання та видалення потенційних кандидатів у моделях та утримання тих, хто має значний вплив на залежну змінну. Цей алгоритм має значення, коли набір даних містить великий перелік предикторів. Вам не потрібно вручну додавати та видаляти незалежні змінні. Поетапна регресія будується для вибору найкращих кандидатів, які відповідають моделі.
Подивимося в дії, як це працює. Ви використовуєте набір даних mtcars із неперервними змінними лише для педагогічної ілюстрації. Перш ніж розпочати аналіз, добре встановити варіації між даними за допомогою матриці кореляції. Бібліотека GGally є розширенням ggplot2.
Бібліотека включає різні функції для відображення зведених статистичних даних, таких як кореляція та розподіл усіх змінних у матриці. Ми використовуватимемо функцію ggscatmat, але ви можете звернутися до віньєтки для отримання додаткової інформації про бібліотеку GGally.
Основним синтаксисом ggscatmat () є:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Ви відображаєте кореляцію для всіх своїх змінних і вирішуєте, яка з них буде найкращими кандидатами для першого кроку поетапної регресії. Існує кілька сильних кореляційних зв'язків між вашими змінними та залежною змінною, mpg.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Вихід:
Поетапна регресія
Вибір змінних є важливою частиною, яка відповідає моделі. Поетапна регресія автоматично виконає процес пошуку. Щоб оцінити, скільки можливих варіантів вибору є в наборі даних, ви обчислюєте з k - кількість предикторів. Кількість можливостей зростає із збільшенням кількості незалежних змінних. Тому вам потрібно мати автоматичний пошук.
Вам потрібно встановити пакет olsrr із CRAN. Пакет ще не доступний в Anaconda. Отже, ви встановлюєте його безпосередньо з командного рядка:
install.packages("olsrr")
Ви можете побудувати всі підмножини можливостей із відповідними критеріями (тобто R-квадрат, скоригований R-квадрат, байєсівські критерії). Модель з найнижчими критеріями AIC буде остаточною моделлю.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Пояснення коду
- mpg ~ .: Побудуйте модель для оцінки
- lm (model, df): Запустіть модель OLS
- ols_all_subset (підходить): побудуйте графіки з відповідною статистичною інформацією
- графік (тест): побудуйте графіки
Вихід:
Моделі лінійної регресії використовують t-тест для оцінки статистичного впливу незалежної змінної на залежну змінну. Дослідники встановили максимальний поріг 10 відсотків, при цьому нижчі значення вказують на більш сильний статистичний зв'язок. Навколо цього тесту побудована стратегія поетапної регресії для додавання та видалення потенційних кандидатів. Алгоритм працює наступним чином:
- Крок 1: Зробіть кожний предиктор на y окремо. А саме, регресувати x_1 на y, x_2 на y до x_n. Збережіть значення p і збережіть у регресора значення p менше ніж визначений поріг (0,1 за замовчуванням). Прогнози, значення яких нижчі за порогові, будуть додані до остаточної моделі. Якщо жодна змінна не має р-значення нижче, ніж вхідний поріг, тоді алгоритм зупиняється, і ваша остаточна модель має лише константу.
- Крок 2: Використовуйте предиктор із найнижчим значенням р і додайте окремо одну змінну. Ви регресуєте константу, найкращий провісник першого та третього змінних. Ви додаєте до поетапної моделі нові предиктори, значення яких нижчі за вхідний поріг. Якщо жодна змінна не має р-значення нижче 0,1, то алгоритм зупиняється, і у вас є остаточна модель лише з одним предиктором. Ви регресуєте поетапну модель, щоб перевірити значущість найкращих предикторів кроку 1. Якщо він перевищує поріг видалення, ви зберігаєте його в поетапній моделі. В іншому випадку ви виключаєте це.
- Крок 3: Ви повторюєте крок 2 на новій найкращій поетапній моделі. Алгоритм додає предиктори до поетапної моделі на основі введених значень і виключає предиктор із поетапної моделі, якщо він не задовольняє виключаючому порогу.
- Алгоритм продовжує працювати, поки жодна змінна не може бути додана або виключена.
Ви можете виконати алгоритм за допомогою функції ols_stepwise () із пакету olsrr.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
До цього ми покажемо вам кроки алгоритму. Нижче наведена таблиця із залежними та незалежними змінними:
Залежна змінна |
Незалежні змінні |
---|---|
mpg |
дисп |
к.с. |
|
драт |
|
мас |
|
qsec |
Почніть
Для початку алгоритм починається з запуску моделі на кожній незалежній змінній окремо. У таблиці наведено значення р для кожної моделі.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Для входу в модель алгоритм зберігає змінну з найменшим значенням р. З наведеного вище виводу це вага
Крок 1
На першому кроці алгоритм самостійно запускає mpg на wt та інші змінні.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Кожна змінна є потенційним кандидатом на вступ до остаточної моделі. Однак алгоритм зберігає лише змінну з нижчим значенням р. Виявляється, hp має трохи нижче значення р, ніж qsec. Тому hp входить в остаточну модель
Крок 2
Алгоритм повторює перший крок, але цього разу з двома незалежними змінними в кінцевій моделі.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Жодна зі змінних, що увійшли в остаточну модель, не має p-значення досить низьким. На цьому алгоритм зупиняється; ми маємо остаточну модель:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Ви можете використовувати функцію ols_stepwise () для порівняння результатів.
stp_s <-ols_stepwise(fit, details=TRUE)
Вихід:
Алгоритм знаходить рішення через 2 кроки і повертає той самий результат, що й раніше.
В кінці можна сказати, що моделі пояснюються двома змінними та перехопленням. Пробіг на галон негативно корелює з валовою вагою та вагою
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Машинне навчання
Машинне навчання набуває широкого розповсюдження серед вчених з питань обробки даних і застосовується в сотнях продуктів, якими ви користуєтеся щодня. Одним із перших додатків ML був фільтр спаму .
Нижче наведено інші програми машинного навчання -
- Виявлення небажаних повідомлень спаму в електронній пошті
- Сегментація поведінки клієнтів для цільової реклами
- Скорочення шахрайських операцій з кредитними картками
- Оптимізація використання енергії в будинку та офісному будинку
- Розпізнавання обличчя
Навчання під контролем
Під час контрольованого навчання дані навчання, які ви подаєте в алгоритм, містять мітку.
Класифікація - це, мабуть, найбільш вживана техніка навчання під наглядом. Одним із перших завдань, з якими вирішили дослідники класифікації, був фільтр спаму. Мета навчання полягає в тому, щоб передбачити, чи електронна пошта класифікується як спам чи шинка (хороша електронна пошта). Після етапу навчання апарат може виявити клас електронної пошти.
Регресії зазвичай використовуються в галузі машинного навчання для прогнозування безперервного значення. Завдання регресії може передбачити значення залежної змінної на основі набору незалежних змінних (їх також називають предикторами або регресорами). Наприклад, лінійні регресії можуть передбачати ціну акцій, прогноз погоди, продажі тощо.
Ось список деяких фундаментальних алгоритмів навчання під контролем.
- Лінійна регресія
- Логістична регресія
- Найближчі сусіди
- Підтримка векторної машини (SVM)
- Дерева рішень та випадковий ліс
- Нейронні мережі
Навчання без нагляду
При навчанні без нагляду дані про навчання не позначаються. Система намагається вчитися без посилання. Нижче наведено перелік алгоритмів навчання без нагляду.
- K-середнє
- Ієрархічний кластерний аналіз
- Максимізація очікувань
- Візуалізація та зменшення розмірності
- Аналіз основних компонентів
- Ядро PCA
- Локально-лінійне вбудовування
Резюме
Звичайну найменш квадратичну регресію можна підсумувати в таблиці нижче:
Бібліотека |
Об’єктивна |
Функція |
Аргументи |
---|---|---|---|
база |
Обчисліть лінійну регресію |
lm () |
формула, дані |
база |
Підсумуйте модель |
підсумувати () |
підходить |
база |
Коефіцієнти екстракту |
lm () $ коефіцієнт | |
база |
Витягуємо залишки |
lm () $ залишків | |
база |
Точне встановлене значення |
lm () $ встановлених.значень | |
olsrr |
Запустіть поетапну регресію |
ols_stepwise () |
підгонка, пент = 0,1, прем = 0,3, деталі = FALSE |
Примітка : Не забувайте трансформувати категоріальну змінну у коефіцієнт, перш ніж відповідати моделі.