Що таке R Software?
R - це мова програмування та вільне програмне забезпечення, розроблене Россом Іакою та Робертом Джентльменом у 1993 році. R має великий каталог статистичних та графічних методів. Він включає алгоритми машинного навчання, лінійну регресію, часові ряди, статистичний висновок, щоб назвати декілька. Більшість R-бібліотек написані на R, але для важких обчислювальних завдань переважні коди C, C ++ та Fortran.
R не лише доручається академічним, але багато великих компаній також використовують мову програмування R, включаючи Uber, Google, Airbnb, Facebook тощо.
Аналіз даних за допомогою R проводиться в ряд кроків; програмування, перетворення, виявлення, моделювання та передача результатів
- Програма : R - це зрозумілий та доступний інструмент програмування
- Трансформація : R складається з колекції бібліотек, розроблених спеціально для науки про дані
- Відкрийте для себе : Дослідіть дані, уточніть свою гіпотезу та проаналізуйте їх
- Модель : R пропонує широкий спектр інструментів для збору потрібної моделі для ваших даних
- Спілкування : інтегруйте коди, графіки та результати у звіт за допомогою R Markdown або створюйте блискучі програми, якими можна поділитися з усім світом
У цьому вступному посібнику ви дізнаєтесь R
- Для чого використовується R?
- R за галуззю промисловості
- R-пакет
- Спілкуйтеся з Р
- Навіщо використовувати R?
- Чи варто вибирати R?
- R важко?
Для чого використовується R?
- Статистичний висновок
- Аналіз даних
- Алгоритм машинного навчання
R за галуззю промисловості
Якщо ми розбиваємо використання R у галузях промисловості, ми бачимо, що науковці стоять на першому місці. R - це мова статистики. R - це перший вибір у галузі охорони здоров’я, за ним ідуть уряд та консалтинг.
R-пакет
Основним використанням R є і буде завжди статистика, візуалізація та машинне навчання. На малюнку нижче показано, який пакет R отримав найбільше запитань у Stack Overflow. У топ-10 більшість із них пов’язані з робочим процесом вченого з питань даних: підготовка даних та передача результатів.
Усі бібліотеки R, майже 12 тис., Зберігаються в CRAN. CRAN - це безкоштовний і відкритий код. Ви можете завантажити та використовувати численні бібліотеки для проведення машинного навчання або аналізу часових рядів.
Спілкуйтеся з Р
R має кілька способів презентувати та ділитися роботою, або через документ про націнку, або за допомогою блискучої програми. Все може розміщуватися в Rpub, GitHub або на веб-сайті компанії.
Нижче наведено приклад презентації, розміщеної на Rpub
Rstudio приймає націнку для написання документа. Ви можете експортувати документи в різні формати:
- Документ:
- HTML
- PDF / латекс
- Слово
- Презентація
- HTML
- Промінь PDF
Rstudio має чудовий інструмент для простого створення програми. Нижче наведено приклад програми з даними Світового банку.
Навіщо використовувати R?
Наука даних формує спосіб ведення бізнесу компаніями. Без сумніву, триматися подалі від штучного інтелекту та машини призведе до провалу компанії. Велике питання полягає в тому, який інструмент / мову слід використовувати?
На ринку існує безліч інструментів для аналізу даних. Вивчення нової мови вимагає певних витрат часу. На малюнку нижче зображена крива навчання у порівнянні з діловими можливостями, які пропонує мова. Негативні стосунки передбачають відсутність безкоштовного обіду. Якщо ви хочете дати найкраще уявлення з даних, то вам потрібно витратити трохи часу на вивчення відповідного інструменту, яким є R.
У верхньому лівому куті графіка ви можете побачити Excel та PowerBI. Ці два інструменти прості у вивченні, але не пропонують видатних ділових можливостей, особливо в плані моделювання. В середині ви можете побачити Python і SAS. SAS - це спеціальний інструмент для проведення статистичного аналізу для бізнесу, але це не безкоштовно. SAS - це програмне забезпечення для натискання та запуску. Однак Python - це мова з монотонною кривою навчання. Python - це чудовий інструмент для розгортання машинного навчання та AI, але йому не вистачає комунікаційних можливостей. З однаковою кривою навчання R є гарним компромісом між впровадженням та аналізом даних.
Що стосується візуалізації даних (DataViz), ви, напевно, чули про Tableau. Табло, без сумніву, є чудовим інструментом для виявлення закономірностей за допомогою графіків та діаграм. Крім того, вивчення Таблиці не займає багато часу. Однією з великих проблем візуалізації даних є те, що ви в кінцевому підсумку ніколи не знайдете шаблон або просто створите безліч марних діаграм. Tableau - це хороший інструмент для швидкої візуалізації даних або Business Intelligence. Що стосується статистики та інструменту прийняття рішень, то R більше підходить.
Переповнення стеків - це велика спільнота для мов програмування. Якщо у вас проблема з кодуванням або вам потрібно зрозуміти модель, Stack Overflow тут допоможе. Протягом року відсоток переглядів запитань різко зріс для Р порівняно з іншими мовами. Звичайно, ця тенденція сильно корелює з бурхливим віком науки про дані, але вона відображає попит мови R на науку даних.
В науці про дані існує два інструменти, які конкурують між собою. R та Python, ймовірно, мова програмування, що визначає науку даних.
Чи варто вибирати R?
Вчений-дослідник може використовувати два чудові інструменти: R та Python. Можливо, ви не встигнете вивчити їх обох, особливо якщо ви почнете вивчати науку даних. Навчання статистичному моделюванню та алгоритмунабагато важливіше, ніж вивчення мови програмування. Мова програмування - це інструмент для обчислення та передачі вашого відкриття. Найважливішим завданням в науці про дані є спосіб роботи з даними: імпорт, очищення, підготовка, розробка функцій, вибір функцій. Це має бути вашим основним акцентом. Якщо ви намагаєтесь вивчити R і Python одночасно, не маючи надійних статистичних даних, це просто дурне. Вчений даних не є програмістами. Їхня робота полягає в тому, щоб зрозуміти дані, маніпулювати ними та викрити найкращий підхід. Якщо ви розмірковуєте над тим, яку мову вивчити, давайте подивимось, яка мова вам найбільше підходить.
Основна аудиторія науки про дані - це бізнес-професіонал. У бізнесі одним великим наслідком є спілкування. Існує багато способів спілкування: звіт, веб-програма, інформаційна панель. Вам потрібен інструмент, який робить все це разом.
R важко?
Роками тому Р була важкою для оволодіння мовою. Мова була заплутаною та не такою структурованою, як інші засоби програмування. Щоб подолати цю головну проблему, Хедлі Вікхем розробив колекцію пакетів під назвою tidyverse. Правило гри змінилося на краще. Обробка даних стає тривіальною та інтуїтивно зрозумілою. Створення графіку було вже не так складно.
Найкращі алгоритми машинного навчання можуть бути реалізовані за допомогою R. Пакети, такі як Keras та TensorFlow, дозволяють створити високотехнологічну техніку машинного навчання. R також має пакет для виконання Xgboost, одного з найкращих алгоритмів для змагань Kaggle.
R може спілкуватися з іншою мовою. У R. можна викликати Python, Java, C ++. Світ великих даних також доступний R. Ви можете підключити R до різних баз даних, таких як Spark або Hadoop.
Нарешті, R розвинувся і дозволив операцію розпаралелювання, щоб пришвидшити обчислення. Насправді, R критикували за використання лише одного процесора одночасно. Паралельний пакет дозволяє виконувати завдання в різних ядрах машини.
Резюме
У двох словах, R - чудовий інструмент для дослідження та дослідження даних. Досконалий аналіз, такий як кластеризація, кореляція та скорочення даних, виконується за допомогою R. Це найважливіша частина, без належної інженерії та моделі функцій розгортання машинного навчання не дасть значущих результатів.