Машинне навчання без нагляду: що таке, алгоритми, приклад

Зміст:

Anonim

Навчання без нагляду

Навчання без нагляду - це техніка машинного навчання, при якій користувачам не потрібно контролювати модель. Натомість це дозволяє моделі працювати самостійно, щоб виявити закономірності та інформацію, яка раніше не була виявлена. В основному мова йде про немічені дані.

Алгоритми навчання без нагляду

Алгоритми навчання без нагляду дозволяють користувачам виконувати більш складні завдання обробки в порівнянні з контрольованим навчанням. Хоча навчання без нагляду може бути більш непередбачуваним порівняно з іншими природними методами навчання. Алгоритми навчання без нагляду включають кластеризацію, виявлення аномалій, нейронні мережі тощо.

У цьому підручнику ви дізнаєтесь:

  • Приклад машинного навчання без нагляду
  • Чому навчання без нагляду?
  • Типи навчання без нагляду
  • Скупчення
  • Кластеризаційні типи
  • Асоціація
  • Контрольоване проти некерованого машинного навчання
  • Застосування машинного навчання без нагляду
  • Недоліки навчання без нагляду

Приклад машинного навчання без нагляду

Давайте візьмемо випадок з дитиною та її сімейною собакою.

Вона знає та ідентифікує цю собаку. Через кілька тижнів сімейний друг привозить із собою собаку і намагається пограти з дитиною.

Дитина раніше не бачив цю собаку. Але він розпізнає багато особливостей (2 вуха, очі, ходіння на 4 ногах), як її домашня собака. Вона визначає нову тварину як собаку. Це навчання без нагляду, де вас не вчать, але ви дізнаєтесь з даних (у даному випадку дані про собаку.) Якби це було контрольоване навчання, сімейний друг сказав би дитині, що це собака.

Чому навчання без нагляду?

Ось основні причини використання непідконтрольного навчання:

  • Машинне навчання без нагляду знаходить у даних усі невідомі закономірності.
  • Методи без нагляду допомагають знайти функції, які можуть бути корисними для категоризації.
  • Це відбувається в режимі реального часу, тому всі вхідні дані аналізуються та маркуються у присутності учнів.
  • Отримати немічені дані з комп’ютера простіше, ніж мічені дані, які потребують ручного втручання.

Типи навчання без нагляду

Проблеми навчання без нагляду в подальшому групуються у проблеми кластеризації та асоціації.

Скупчення

Кластеризація є важливим поняттям, коли мова йде про навчання без нагляду. В основному мова йде про пошук структури або зразка в колекції некатегоризованих даних. Алгоритми кластеризації оброблять ваші дані та знайдуть природні кластери (групи), якщо вони існують у даних. Ви також можете змінити кількість кластерів, які повинні ідентифікувати ваші алгоритми. Це дозволяє регулювати деталізацію цих груп.

Існують різні типи кластеризації, які можна використовувати:

Ексклюзив (розділення)

У цьому методі кластеризації дані групуються таким чином, що одні дані можуть належати лише одному кластеру.

Приклад: K-засоби

Агломеративний

У цій техніці кластеризації всі дані є кластером. Ітераційні об’єднання між двома найближчими кластерами зменшують кількість кластерів.

Приклад: Ієрархічна кластеризація

Перекриття

У цій техніці нечіткі набори використовуються для кластеризації даних. Кожен пункт може належати до двох або більше скупчень з окремими ступенями членства.

Тут дані будуть пов’язані з відповідним значенням членства. Приклад: нечіткі C-засоби

Імовірнісний

Цей метод використовує розподіл ймовірностей для створення кластерів

Приклад: Наступні ключові слова

  • «чоловіче взуття».
  • «жіноче взуття».
  • «жіноча рукавичка».
  • «чоловіча рукавичка».

можна згрупувати за двома категоріями "взуття" та "рукавичка" або "чоловік" та "жінки".

Кластеризаційні типи

  • Ієрархічна кластеризація
  • K-означає кластеризацію
  • K-NN (k найближчих сусідів)
  • Аналіз основних компонентів
  • Декомпозиція однинного значення
  • Незалежний аналіз компонентів

Ієрархічна кластеризація:

Ієрархічна кластеризація - це алгоритм, який будує ієрархію кластерів. Починається з усіх даних, які призначаються їхньому кластеру. Тут два тісні кластери будуть знаходитися в одному кластері. Цей алгоритм закінчується, коли залишається лише один кластер.

K-означає кластеризацію

K означає, що це ітеративний алгоритм кластеризації, який допомагає знайти найвище значення для кожної ітерації. Спочатку вибирається бажана кількість кластерів. У цьому методі кластеризації вам потрібно згрупувати точки даних у k групи. Більший k означає менші групи з більшою деталізацією таким же чином. Нижчий k означає більші групи з меншою деталізацією.

Результатом роботи алгоритму є група "міток". Він призначає точку даних одній з k-груп. У кластеризації k-означає кожна група визначається шляхом створення центроїда для кожної групи. Центроїди схожі на серце скупчення, яке фіксує найближчі до них точки та додає їх до скупчення.

K-середня кластеризація додатково визначає дві підгрупи:

  • Агломеративна кластеризація
  • Дендрограма

Агломеративна кластеризація:

Цей тип кластеризації K-засобів починається з фіксованої кількості кластерів. Він розподіляє всі дані в точну кількість кластерів. Цей метод кластеризації не вимагає кількості кластерів K як вхідних даних. Процес агломерації починається з формування кожних даних як єдиного кластера.

Цей метод використовує деяку міру відстані, зменшує кількість кластерів (по одному на кожній ітерації) шляхом злиття. Нарешті, у нас є один великий кластер, який містить усі об’єкти.

Дендрограма:

У методі кластеризації дендрограм кожен рівень представлятиме можливий кластер. Висота дендрограми показує рівень подібності між двома кластерами об’єднань. Чим ближче до нижньої частини процесу, тим більше схожий кластер, який є знаходженням групи з дендрограми, що не є природним і переважно суб'єктивним.

К- Найближчі сусіди

К - найближчий сусід - найпростіший з усіх класифікаторів машинного навчання. Він відрізняється від інших технік машинного навчання тим, що не дає моделі. Це простий алгоритм, який зберігає всі наявні випадки та класифікує нові екземпляри на основі міри подібності.

Це дуже добре працює, коли між прикладами є відстань. Швидкість навчання є повільною, коли навчальний набір великий, а розрахунок відстані нетривіальний.

Аналіз основних компонентів:

На випадок, якщо вам потрібен простір більшого розміру. Вам потрібно вибрати основу для цього простору і лише 200 найважливіших оцінок цієї основи. Ця база відома як основний компонент. Вибрана вами підмножина являє собою новий простір, який має невеликі розміри порівняно з початковим простором. Він підтримує якомога більшу складність даних.

Асоціація

Правила асоціації дозволяють встановлювати асоціації серед об'єктів даних усередині великих баз даних. Ця неконтрольована техніка стосується виявлення цікавих взаємозв’язків між змінними у великих базах даних. Наприклад, люди, які купують нове житло, найімовірніше купують нові меблі.

Інші приклади:

  • Підгрупа хворих на рак, згрупована за вимірами експресії генів
  • Групи покупців на основі їх історії перегляду та покупок
  • Група фільмів за рейтингом, який дали глядачі фільмів

Контрольоване проти некерованого машинного навчання

Параметри Контрольована техніка машинного навчання Техніка машинного навчання без нагляду
Вхідні дані Навчання алгоритмів здійснюється з використанням маркованих даних. Алгоритми використовуються щодо даних, які не позначені
Обчислювальна складність Навчання під наглядом - це більш простий метод. Навчання без нагляду є обчислювально складним
Точність Високоточний і надійний метод. Менш точний і надійний метод.

Застосування машинного навчання без нагляду

Деякі програми техніки машинного навчання без нагляду:

  • Кластеризація автоматично розділяє набір даних на групи на основі їх подібності
  • Виявлення аномалій може виявити незвичні точки даних у наборі даних. Це корисно для пошуку шахрайських транзакцій
  • Майнінг асоціацій визначає набори елементів, які часто трапляються разом у вашому наборі даних
  • Моделі прихованих змінних широко використовуються для попередньої обробки даних. Як зменшення кількості об’єктів у наборі даних або розкладання набору даних на кілька компонентів

Недоліки навчання без нагляду

  • Ви не можете отримати точну інформацію щодо сортування даних, а вихідні дані як дані, що використовуються при неконтрольованому навчанні, позначені та невідомі
  • Менша точність результатів полягає в тому, що вхідні дані невідомі та не позначені людьми заздалегідь. Це означає, що машина вимагає зробити це сама.
  • Спектральні класи не завжди відповідають інформаційним класам.
  • Користувачеві потрібно витратити час на інтерпретацію та позначення класів, які відповідають цій класифікації.
  • Спектральні властивості класів також можуть змінюватися з часом, тому ви не можете мати однакову інформацію про клас під час переходу від одного зображення до іншого.

Резюме

  • Навчання без нагляду - це техніка машинного навчання, де не потрібно контролювати модель.
  • Машинне навчання без нагляду допомагає знаходити всі види невідомих закономірностей у даних.
  • Кластеризація та асоціація - це два типи навчання без нагляду.
  • Чотири типи методів кластеризації: 1) ексклюзивний 2) агломеративний 3) дублюючий 4) імовірнісний.
  • Важливими типами кластеризації є: 1) Ієрархічна кластеризація 2) Кластеризація K-засобів 3) K-NN 4) Аналіз основних компонентів 5) Декомпозиція сингулярних значень 6) Аналіз незалежних компонентів.
  • Правила асоціації дозволяють встановлювати асоціації серед об'єктів даних усередині великих баз даних.
  • При контрольованому навчанні алгоритми навчаються з використанням маркованих даних, тоді як при контрольованому навчанні алгоритми використовуються проти даних, які не позначені.
  • Виявлення аномалій може виявити важливі точки даних у наборі даних, що корисно для пошуку шахрайських транзакцій.
  • Найбільшим недоліком навчання без нагляду є те, що ви не можете отримати точну інформацію щодо сортування даних.