Що таке матриця плутанини?
Матриця плутанини - це методика вимірювання продуктивності для класифікації машинного навчання. Це своєрідна таблиця, яка допомагає дізнатися ефективність класифікаційної моделі на наборі тестових даних, для яких відомі справжні значення. Сам термін матриця плутанини дуже простий, але пов'язана з ним термінологія може трохи заплутати. Тут наведено кілька простих пояснень цієї техніки.
У цьому підручнику ви дізнаєтесь,
- Що таке матриця плутанини?
- Чотири результати матриці плутанини
- Приклад матриці плутанини:
- Як розрахувати матрицю плутанини
- Інші важливі терміни з використанням матриці Confusion
- Навіщо потрібна матриця Confusion?
Чотири результати матриці плутанини
Матриця плутанини візуалізує точність класифікатора шляхом порівняння фактичних та передбачуваних класів. Матриця двійкової плутанини складається з квадратів:
- TP: Справжнє Позитивне: передбачувані значення правильно прогнозуються як фактичні позитивні
- FP: Прогнозовані значення неправильно передбачали фактичний позитив. тобто негативні значення прогнозуються як позитивні
- FN: помилково негативний: позитивні значення прогнозуються як негативні
- TN: Справжній негатив: прогнозовані значення правильно передбачені як фактичні негативні
Ви можете обчислити тест на точність з матриці плутанини:
Приклад матриці плутанини:
Confusion Matrix - це корисний метод машинного навчання, який дозволяє вимірювати криву відкликання, точності, точності та AUC-ROC. Нижче наведено приклад знання термінів Справжній позитив, Справжній негатив, Фальшивий негатив і Справжній негатив.
Справжній позитив:
Ви прогнозували позитив, і це виявляється правдою. Наприклад, ви передбачали, що Франція виграє чемпіонат світу, і вона виграла.
Справжній негатив:
Коли ви прогнозували негатив, і це правда. Ви передбачали, що Англія не переможе, і вона програє.
Хибно позитивний:
Ваш прогноз позитивний, і він хибний.
Ви передбачали, що Англія переможе, але програла.
Помилково негативний:
Ваш прогноз негативний, а результат - також помилковий.
Ви передбачали, що Франція не переможе, але перемогла.
Ви повинні пам’ятати, що ми описуємо передбачувані значення як істинні чи помилкові чи позитивні та негативні.
Як розрахувати матрицю плутанини
Тут описано поетапний процес обчислення матриці плутанини при видобутку даних
- Крок 1) Спочатку потрібно протестувати набір даних із очікуваними значеннями результатів.
- Крок 2) Прогнозуйте всі рядки в тестовому наборі даних.
- Крок 3) Обчисліть очікувані прогнози та результати:
- Сума правильних прогнозів кожного класу.
- Сума неправильних прогнозів кожного класу.
Після цього ці числа впорядковуються за поданими нижче методами:
- Кожен рядок матриці посилається на передбачуваний клас.
- Кожному стовпцю матриці відповідає фактичний клас.
- Загальний підрахунок правильної та неправильної класифікації заноситься до таблиці.
- Сума правильних прогнозів для класу переходить у передбачений стовпець і очікуваний рядок для цього значення класу.
- Сума неправильних передбачень для класу переходить у очікуваний рядок для цього значення класу та передбачений стовпець для цього конкретного значення класу.
Інші важливі терміни з використанням матриці Confusion
- Позитивне прогнозне значення (PVV): Це дуже близько до точності. Істотною відмінністю між двома термінами є те, що PVV враховує поширеність. У ситуації, коли класи ідеально збалансовані, позитивне передбачувальне значення таке саме, як і точність.
- Рівень нульових помилок: Цей термін використовується, щоб визначити, скільки разів ваше прогнозування буде помилковим, якщо ви зможете передбачити більшість класів. Ви можете розглядати його як базову метрику для порівняння свого класифікатора.
- Оцінка F: Оцінка F1 - це середньозважена оцінка справжнього позитиву (відкликання) та точності.
- Крива Roc: Крива Roc показує справжні позитивні показники проти хибнопозитивних коефіцієнтів на різних точках відрізу. Це також демонструє компроміс між чутливістю (відкликання та специфічність або справжній негативний показник).
- Точність: метрика точності показує точність позитивного класу. Він вимірює, наскільки вірогідним є прогнозування позитивного класу.
Максимальний бал - 1, коли класифікатор ідеально класифікує всі позитивні значення. Точність сама по собі не дуже корисна, оскільки вона ігнорує негативний клас. Метрика зазвичай поєднується з метрикою Recall. Відкликання також називають чутливістю або справжнім позитивним показником.
- Чутливість : Чутливість обчислює співвідношення позитивних класів, правильно виявлених. Ця метрика показує, наскільки добре модель розпізнає позитивний клас.
Навіщо потрібна матриця Confusion?
Ось плюси / переваги використання матриці плутанини.
- Це показує, як будь-яка модель класифікації плутається, коли вона робить прогнози.
- Матриця плутанини не лише дає вам уявлення про помилки, допущені вашим класифікатором, але й про типи помилок, які допускаються.
- Ця розбивка допомагає подолати обмеження використання лише точності класифікації.
- Кожен стовпець матриці плутанини представляє екземпляри цього передбачуваного класу.
- Кожен рядок матриці плутанини представляє екземпляри фактичного класу.
- Він надає уявлення не тільки про помилки, допущені класифікатором, але й про помилки, які допускаються.