Що таке коефіцієнт в R?
Коефіцієнт в R - це змінна, яка використовується для класифікації та зберігання даних, що має обмежену кількість різних значень. Він зберігає дані як вектор цілочисельних значень. Фактор у R також відомий як категоріальна змінна, яка зберігає як рівні рядкові, так і цілі значення даних. Фактор в основному використовується в статистичному моделюванні та аналізі дослідницьких даних разом з R.
У наборі даних ми можемо розрізнити два типи змінних: категоричні та безперервні .
- В описовій статистиці для категоріальних змінних у R значення обмежене і зазвичай базується на певній кінцевій групі. Наприклад, категоріальною змінною в R можуть бути країни, рік, стать, рід занять.
- Однак безперервна змінна може приймати будь-які значення, від цілого до десяткового. Наприклад, ми можемо мати дохід, ціну акції тощо ...
Категоричні змінні
Категоричні змінні в R зберігаються у факторі. Давайте перевіримо наведений нижче код, щоб перетворити символьну змінну у змінну фактору в R. Символи не підтримуються в алгоритмі машинного навчання, і єдиний спосіб - це перетворення рядка в ціле число.
Синтаксис
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Аргументи:
- x : вектор категоріальних даних у R. Потрібно бути рядком або цілим числом, а не десятковою.
- Рівні : вектор можливих значень, прийнятий x. Цей аргумент необов’язковий. Значення за замовчуванням - унікальний список елементів вектора x.
- Мітки : Додайте мітку до x категоріальних даних у R. Наприклад, 1 може взяти мітку `чоловічий`, а 0, мітку` жіночий`.
- замовлене : Визначте, чи слід упорядковувати рівні за категоричними даними в R.
Приклад:
Давайте створимо кадровий фрейм даних.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Вихід:
## [1] "character"## [1] "factor"
Важливо трансформувати рядок у факторну змінну в R, коли ми виконуємо завдання машинного навчання.
Категоричну змінну в R можна розділити на номінальну категоріальну змінну та порядкову категоріальну змінну .
Номінальна категоріальна змінна
Категорична змінна має кілька значень, але порядок не має значення. Наприклад, чоловік чи жінка. Категоричні змінні в R не мають упорядкування.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Вихід:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
За фактором_кольору ми не можемо визначити жодного замовлення.
Порядкова категоріальна змінна
Порядкові категоріальні змінні дійсно мають природний порядок. Ми можемо вказати порядок, від найнижчого до найвищого із замовленням = ІСТИНА та від найвищого до найнижчого із замовленням = ФАЛЬШЕ.
Приклад:
Ми можемо використовувати підсумок для підрахунку значень для кожної змінної фактору в R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Вихід:
## [1] evening morning afternoon middaymidnight evening
Приклад:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Вихід:
## morning midday afternoon evening midnight## 1 1 1 2 1
R замовив рівень від "ранку" до "опівночі", як зазначено в дужках рівнів.
Безперервні змінні
Неперервні змінні класу є значенням за замовчуванням у R. Вони зберігаються як числові чи цілі числа. Це можна побачити із набору даних нижче. mtcars - це вбудований набір даних. Він збирає інформацію про різні типи автомобілів. Ми можемо імпортувати його за допомогою mtcars і перевірити клас змінної mpg, миля на галон. Він повертає числове значення, що вказує на безперервну змінну.
dataset <- mtcarsclass(dataset$mpg)
Вихідні дані
## [1] "numeric"