Коефіцієнт в R: категоріальна змінна & Безперервні змінні

Зміст:

Anonim

Що таке коефіцієнт в R?

Коефіцієнт в R - це змінна, яка використовується для класифікації та зберігання даних, що має обмежену кількість різних значень. Він зберігає дані як вектор цілочисельних значень. Фактор у R також відомий як категоріальна змінна, яка зберігає як рівні рядкові, так і цілі значення даних. Фактор в основному використовується в статистичному моделюванні та аналізі дослідницьких даних разом з R.

У наборі даних ми можемо розрізнити два типи змінних: категоричні та безперервні .

  • В описовій статистиці для категоріальних змінних у R значення обмежене і зазвичай базується на певній кінцевій групі. Наприклад, категоріальною змінною в R можуть бути країни, рік, стать, рід занять.
  • Однак безперервна змінна може приймати будь-які значення, від цілого до десяткового. Наприклад, ми можемо мати дохід, ціну акції тощо ...

Категоричні змінні

Категоричні змінні в R зберігаються у факторі. Давайте перевіримо наведений нижче код, щоб перетворити символьну змінну у змінну фактору в R. Символи не підтримуються в алгоритмі машинного навчання, і єдиний спосіб - це перетворення рядка в ціле число.

Синтаксис

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Аргументи:

  • x : вектор категоріальних даних у R. Потрібно бути рядком або цілим числом, а не десятковою.
  • Рівні : вектор можливих значень, прийнятий x. Цей аргумент необов’язковий. Значення за замовчуванням - унікальний список елементів вектора x.
  • Мітки : Додайте мітку до x категоріальних даних у R. Наприклад, 1 може взяти мітку `чоловічий`, а 0, мітку` жіночий`.
  • замовлене : Визначте, чи слід упорядковувати рівні за категоричними даними в R.

Приклад:

Давайте створимо кадровий фрейм даних.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Вихід:

## [1] "character"## [1] "factor"

Важливо трансформувати рядок у факторну змінну в R, коли ми виконуємо завдання машинного навчання.

Категоричну змінну в R можна розділити на номінальну категоріальну змінну та порядкову категоріальну змінну .

Номінальна категоріальна змінна

Категорична змінна має кілька значень, але порядок не має значення. Наприклад, чоловік чи жінка. Категоричні змінні в R не мають упорядкування.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Вихід:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

За фактором_кольору ми не можемо визначити жодного замовлення.

Порядкова категоріальна змінна

Порядкові категоріальні змінні дійсно мають природний порядок. Ми можемо вказати порядок, від найнижчого до найвищого із замовленням = ІСТИНА та від найвищого до найнижчого із замовленням = ФАЛЬШЕ.

Приклад:

Ми можемо використовувати підсумок для підрахунку значень для кожної змінної фактору в R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Вихід:

## [1] evening morning afternoon middaymidnight evening 

Приклад:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Вихід:

## morning midday afternoon evening midnight## 1 1 1 2 1

R замовив рівень від "ранку" до "опівночі", як зазначено в дужках рівнів.

Безперервні змінні

Неперервні змінні класу є значенням за замовчуванням у R. Вони зберігаються як числові чи цілі числа. Це можна побачити із набору даних нижче. mtcars - це вбудований набір даних. Він збирає інформацію про різні типи автомобілів. Ми можемо імпортувати його за допомогою mtcars і перевірити клас змінної mpg, миля на галон. Він повертає числове значення, що вказує на безперервну змінну.

dataset <- mtcarsclass(dataset$mpg)

Вихідні дані

## [1] "numeric"