Що таке озеро даних?
Озеро даних - це сховище сховищ, яке може зберігати велику кількість структурованих, напівструктурованих та неструктурованих даних. Тут можна зберігати всі типи даних у власному форматі, без встановлених обмежень на розмір облікового запису чи файл. Він пропонує велику кількість даних для підвищення аналітичної продуктивності та власної інтеграції.
Озеро Дані схоже на великий контейнер, який дуже схожий на справжнє озеро та річки. Подібно до того, як в озеро у вас надходить кілька приток, озеро даних має структуровані дані, неструктуровані дані, машину до машини, журнали, що протікають в режимі реального часу.
Озеро даних демократизує дані і є економічно ефективним способом зберігання всіх даних організації для подальшої обробки. Аналітик дослідження може зосередитись на пошуку значущих закономірностей у даних, а не на самих даних.
На відміну від ієрархічного будинку даних, де дані зберігаються у файлах та папках, озеро даних має плоску архітектуру. Кожним елементам даних в озері даних надається унікальний ідентифікатор і позначення набором інформації про метадані.
У цьому підручнику ви дізнаєтесь-
- Що таке озеро даних?
- Чому озеро Дані?
- Архітектура озера даних
- Основні концепції озера даних
- Етапи зрілості озера Дани
- Найкращі практики впровадження озера даних:
- Різниця між рівнем даних та сховищем даних
- Переваги та ризики використання Data Lake:
Чому озеро Дані?
Основною метою побудови озера даних є надання неточного перегляду даних науковцям даних.
Причинами використання Data Lake є:
- З початком роботи механізмів зберігання, таких як Hadoop, зберігати різнорідну інформацію стало легко. Немає необхідності моделювати дані в масштабі всієї підприємства за допомогою озера даних.
- Зі збільшенням обсягу даних, якості даних та метаданих, якість аналізів також зростає.
- Озеро даних пропонує спритність бізнесу
- Машинне навчання та штучний інтелект можна використовувати для вигідних прогнозів.
- Це пропонує конкурентну перевагу організації, що впроваджує.
- Відсутня структура силосу даних. Озеро даних дає 360-градусний огляд клієнтів і робить аналіз надійнішим.
Архітектура озера даних
На рисунку показано архітектуру озера бізнес-даних. Нижні рівні представляють дані, які в основному перебувають у стані спокою, тоді як верхні рівні відображають дані транзакцій у реальному часі. Ці дані протікають через систему без затримок або з невеликою затримкою. Нижче наведено важливі рівні архітектури озера даних:
- Рівень проковтування : Ряди зліва відображають джерела даних. Дані можна завантажувати в озеро даних партіями або в режимі реального часу
- Рівень статистичних даних: Яруси праворуч представляють сторону дослідження, де використовуються ідеї системи. SQL, запити NoSQL або навіть Excel можуть бути використані для аналізу даних.
- HDFS - це економічно ефективне рішення як для структурованих, так і для неструктурованих даних. Це зона посадки для всіх даних, які перебувають у стані спокою в системі.
- Рівень дистиляції бере дані із шини для зберігання та перетворює їх у структуровані дані для більш легкого аналізу.
- Аналітичні алгоритми обробки рівня запуску та запити користувачів із різним реальним часом, інтерактивні, пакетні, для формування структурованих даних для зручності аналізу.
- Єдиний рівень операцій регулює управління та моніторинг системи. Він включає аудит та управління кваліфікацією, управління даними, управління робочим процесом.
Основні концепції озера даних
Далі наведені ключові концепції озера даних, які потрібно зрозуміти, щоб повністю зрозуміти архітектуру озера даних
Завантаження даних
Забір даних дозволяє з'єднувачам отримувати дані з різних джерел даних і завантажувати їх в озеро даних.
Передача даних підтримує:
- Усі типи структурованих, напівструктурованих та неструктурованих даних.
- Кілька прийомів, наприклад, пакетне, реальне час, одноразове завантаження.
- Багато типів джерел даних, таких як бази даних, веб-сервери, електронні листи, IoT та FTP.
Зберігання даних
Зберігання даних повинно бути масштабованим, пропонує економічно ефективне зберігання та забезпечувати швидкий доступ до дослідження даних. Він повинен підтримувати різні формати даних.
Управління даними
Управління даними - це процес управління доступністю, зручністю використання, безпекою та цілісністю даних, що використовуються в організації.
Безпека
Безпека повинна бути впроваджена в кожному шарі озера даних. Це починається з зберігання, виймання та споживання. Основною потребою є припинення доступу для несанкціонованих користувачів. Він повинен підтримувати різні інструменти для доступу до даних за допомогою зручного навігаційного графічного інтерфейсу та інформаційних панелей.
Автентифікація, облік, авторизація та захист даних - деякі важливі особливості безпеки озера даних.
Якість даних:
Якість даних є важливою складовою архітектури озера даних. Дані використовуються для точної вартості бізнесу. Витяг статистичних даних із неякісних даних призведе до низької якості статистичних даних.
Виявлення даних
Виявлення даних - ще один важливий етап, перш ніж розпочати підготовку даних або аналіз. На цьому етапі використовується метод позначення для вираження розуміння даних шляхом упорядкування та інтерпретації даних, що потрапляють в озеро Даних.
Аудит даних
Дві основні завдання аудиту даних - це відстеження змін ключового набору даних.
- Відстеження змін до важливих елементів набору даних
- Фіксує, як / коли / і хто змінює ці елементи.
Аудит даних допомагає оцінити ризик та відповідність.
Походження даних
Цей компонент має справу з походженням даних. В основному він має справу з тим, куди рухається з часом і що з ним відбувається. Це полегшує виправлення помилок у процесі аналізу даних від початку до місця призначення.
Дослідження даних
Це початковий етап аналізу даних. Це допомагає визначити правильний набір даних життєво важливий перед початком дослідження даних.
Всі дані компоненти повинні співпрацювати, щоб зіграти важливу роль у побудові озера даних, легко розвиватися та досліджувати навколишнє середовище.
Етапи зрілості озера Дани
Визначення етапів зрілості озера даних відрізняється від підручника до іншого. Хоча суть залишається незмінною. Після зрілості визначення стадії відбувається з точки зору неспеціаліста.
Етап 1: Обробка та поглинання даних у масштабі
Цей перший етап зрілості даних передбачає вдосконалення здатності трансформувати та аналізувати дані. Тут власникам бізнесу потрібно знайти інструменти відповідно до їх набору навичок для отримання більшої кількості даних та побудови аналітичних додатків.
Етап 2: Формування аналітичної мускулатури
Це другий етап, який передбачає вдосконалення здатності трансформувати та аналізувати дані. На цьому етапі компанії використовують інструмент, який найбільш підходить для їхньої кваліфікації. Вони починають отримувати більше даних та створювати додатки. Тут спільно використовуються можливості корпоративного сховища даних та озера даних.
Етап 3: EDW та Data Lake працюють в унісон
Цей крок передбачає отримання даних та аналітики в руках якомога більшої кількості людей. На цьому етапі озеро даних і корпоративне сховище даних починають працювати в об’єднанні. Обидва відіграють свою роль в аналітиці
Етап 4: Підприємство в озері
На цьому етапі зрілості озера даних до озера даних додаються можливості підприємства. Застосування управління інформацією, можливостей управління життєвим циклом інформації та управління метаданими. Однак дуже мало організацій можуть досягти цього рівня зрілості, але цей підсумок буде зростати в майбутньому.
Найкращі практики впровадження озера даних:
- Архітектурні компоненти, їх взаємодія та ідентифіковані продукти повинні підтримувати власні типи даних
- Дизайн озера даних повинен керуватися тим, що доступно, а не тим, що потрібно. Вимоги до схеми та даних не визначаються, доки до них не буде здійснено запит
- При розробці слід керуватися одноразовими компонентами, інтегрованими із сервісним API.
- Виявленням даних, передачею, зберіганням, адмініструванням, якістю, перетворенням та візуалізацією слід керувати незалежно.
- Архітектура озера даних повинна бути адаптована до конкретної галузі. Він повинен гарантувати, що можливості, необхідні для цього домену, є невід'ємною частиною проекту
- Важливо швидше приєднання до нових відкритих джерел даних
- Data Lake допомагає налаштованому управлінню отримувати максимальне значення
- Озеро даних повинно підтримувати існуючі прийоми та методи управління даними підприємства
Проблеми побудови озера даних:
- В озері даних обсяг даних вищий, тому процес повинен більше залежати від програмного адміністрування
- Важко мати справу з мізерними, неповними, нестабільними даними
- Ширший обсяг набору даних та джерела потребує більшого управління та підтримки даних
Різниця між рівнем даних та сховищем даних
Параметри | Озера даних | Інформаційне сховище |
---|---|---|
Дані | Озера даних зберігають усе. | Склад даних зосереджений лише на бізнес-процесах. |
Обробка | Дані в основному не обробляються | Високо оброблені дані. |
Тип даних | Він може бути неструктурованим, напівструктурованим та структурованим. | Це переважно у вигляді таблиці та структурі. |
Завдання | Діліться керуванням даними | Оптимізовано для пошуку даних |
Спритність | Надзвичайно рухливий, налаштовуйте та переналаштовуйте за потреби. | У порівнянні з озером Даних воно менш рухливе і має фіксовану конфігурацію. |
Користувачі | Data Lake в основному використовується Data Scientist | Бізнес-професіонали широко використовують Склад даних |
Зберігання | Дизайн озер даних для недорогого зберігання. | Використовується дороге сховище, яке забезпечує швидкий час відгуку |
Безпека | Пропонує менший контроль. | Дозволяє краще контролювати дані. |
Заміна EDW | Озеро даних може бути джерелом для EDW | Доповнює EDW (не замінює) |
Схема | Схема для читання (без попередньо визначених схем) | Схема запису (заздалегідь визначені схеми) |
Обробка даних | Допомагає швидкому потраплянню нових даних. | Введення нового змісту вимагає багато часу. |
Детальність даних | Дані з низьким рівнем деталізації або деталізації. | Дані на короткому або сукупному рівні деталізації. |
Інструменти | Можна використовувати відкриті коди / інструменти, такі як Hadoop / Map Reduce | Переважно комерційні інструменти. |
Переваги та ризики використання Data Lake:
Ось кілька основних переваг використання Data Lake:
- Повноцінно допомагає в іонізації продукту та вдосконаленій аналітиці
- Пропонує економічну масштабованість та гнучкість
- Пропонує цінність від необмежених типів даних
- Знижує довгострокові витрати на володіння
- Дозволяє економічно зберігати файли
- Швидко адаптується до змін
- Головною перевагою озера даних є централізація різних джерел вмісту
- Користувачі різних відділів, які можуть бути розпорошені по всьому світу, можуть мати гнучкий доступ до даних
Ризик використання озера даних:
- Через деякий час озеро Дани може втратити актуальність та імпульс
- Під час проектування озера даних існує більший ризик
- Неструктуровані дані можуть призвести до некерованого Chao, непридатних даних, різнорідних та складних інструментів, спільного співробітництва на рівні підприємства, уніфікованого, послідовного та загального
- Це також збільшує витрати на зберігання та обчислення
- Неможливо отримати уявлення від інших, хто працював з даними, оскільки немає даних про попередні аналітики
- Найбільший ризик озер даних - це безпека та контроль доступу. Іноді дані можуть бути розміщені в озері без будь-якого нагляду, оскільки деякі дані можуть потребувати конфіденційності та регуляторних потреб
Короткий зміст:
- Озеро даних - це сховище сховищ, яке може зберігати велику кількість структурованих, напівструктурованих та неструктурованих даних.
- Основною метою побудови озера даних є надання неточного перегляду даних науковцям даних.
- Єдиний рівень операцій, рівень обробки, рівень дистиляції та HDFS є важливими рівнями архітектури озера даних
- Забір даних, зберігання даних, якість даних, аудит даних, дослідження даних, виявлення даних - деякі важливі компоненти архітектури озера даних
- Дизайн озера даних повинен керуватися тим, що доступно, а не тим, що потрібно.
- Data Lake зменшує довгострокові витрати на володіння та дозволяє економічно зберігати файли
- Найбільший ризик озер даних - це безпека та контроль доступу. Іноді дані можуть бути розміщені в озері без будь-якого нагляду, оскільки деякі дані можуть потребувати конфіденційності та регуляторних потреб.