Концепції сховища даних
Основна концепція сховища даних полягає у сприянні єдиній версії правди для компанії для прийняття рішень та прогнозування. Сховище даних - це інформаційна система, яка містить історичні та комутативні дані з одного чи кількох джерел. Концепції сховища даних спрощують процес звітування та аналізу організацій.
Характеристика сховища даних
Концепції сховища даних мають такі характеристики:
- Предметно-орієнтований
- Інтегрований
- Варіант часу
- Нелеткі
Предметно-орієнтований
Сховище даних орієнтоване на тему, оскільки воно пропонує інформацію щодо теми замість поточних операцій компаній. Цими предметами можуть бути продажі, маркетинг, дистрибуція тощо.
Сховище даних ніколи не фокусується на поточних операціях. Натомість акцент робився на моделюванні та аналізі даних для прийняття рішень . Він також надає простий та стислий погляд на конкретну тему, виключаючи дані, які не є корисними для підтримки процесу прийняття рішень.
Інтегрований
У сховищі даних інтеграція означає встановлення загальної одиниці виміру для всіх подібних даних із несхожої бази даних. Дані також потрібно зберігати в Datawarehouse загальним і загальноприйнятим способом.
Сховище даних розробляється шляхом інтеграції даних з різних джерел, таких як мейнфрейм, реляційні бази даних, плоскі файли тощо. Крім того, він повинен підтримувати узгоджені правила іменування, форматування та кодування.
Ця інтеграція допомагає ефективно аналізувати дані. Потрібно забезпечити узгодженість у правилах іменування, мірах атрибутів, структурі кодування тощо. Розглянемо наступний приклад:
У наведеному вище прикладі є три різні програми, позначені A, B та C. Інформація, що зберігається у цих програмах, - це стать, дата та баланс. Однак дані кожної програми зберігаються по-різному.
- У програмі Поле статі зберігає логічні значення, такі як M або F
- У додатку B гендерне поле - це числове значення,
- У додатку C поле статі зберігається у вигляді значення символу.
- Те саме відбувається з датою та балансом
Однак після перетворення та очищення всі ці дані зберігаються у загальному форматі в сховищі даних.
Варіант часу
Часовий горизонт для сховища даних досить великий у порівнянні з операційними системами. Дані, зібрані в сховищі даних, розпізнаються за певний період і пропонують інформацію з історичної точки зору. Він містить елемент часу, явно чи неявно.
Одне з таких місць, де дисперсія часу відображення даних Datawarehouse знаходиться в структурі ключа запису. Кожен первинний ключ, що міститься в DW, повинен мати неявний або явний елемент часу. Як день, тиждень місяць тощо.
Інший аспект розбіжності в часі полягає в тому, що коли дані вставляються на склад, вони не можуть бути оновлені або змінені.
Нелеткі
Сховище даних також є енергонезалежним, тобто попередні дані не стираються при введенні нових даних.
Дані доступні лише для читання та періодично оновлюються. Це також допомагає аналізувати історичні дані та розуміти, що і коли сталося. Він не вимагає процесу транзакцій, відновлення та механізмів контролю паралельності.
Такі дії, як видалення, оновлення та вставка, які виконуються в операційному середовищі додатка, у середовищі сховища даних пропущено. У сховищі даних виконуються лише два типи операцій з даними
- Завантаження даних
- Доступ до даних
Ось деякі основні відмінності між додатком та сховищем даних
Операційне застосування | Інформаційне сховище |
Складна програма повинна бути закодована, щоб переконатися, що процеси оновлення даних підтримують високу цілісність кінцевого продукту. | Такого роду проблеми не трапляються, оскільки оновлення даних не проводиться. |
Дані розміщуються у нормалізованій формі, щоб забезпечити мінімальну надмірність. | Дані не зберігаються у нормалізованому вигляді. |
Технологія, необхідна для підтримки питань транзакцій, відновлення даних, відкочування та вирішення, оскільки її глухий кут досить складний. | Це пропонує відносну простоту в технології. |
Архітектура сховища даних
Архітектура сховища даних є складною, оскільки це інформаційна система, яка містить історичні та комутативні дані з декількох джерел. Існує 3 підходи до побудови шарів сховища даних: однорівневий, дворівневий та трирівневий. Ця трирівнева архітектура Data Warehouse пояснюється нижче.
Однорівнева архітектура
Завдання одного рівня - мінімізувати обсяг збережених даних. Ця мета - усунути надмірність даних. Ця архітектура не часто використовується на практиці.
Дворівнева архітектура
Двошарова архітектура - це один із шарів сховища даних, який розділяє фізично доступні джерела та сховище даних. Ця архітектура не розширюється, а також не підтримує велику кількість кінцевих користувачів. У нього також є проблеми з підключенням через обмеження мережі.
Трирівнева архітектура сховища даних
Це найпоширеніша архітектура сховища даних.
Він складається з верхнього, середнього та нижнього рівня.
- Нижній рівень: база даних серверів Datawarehouse як нижній рівень. Зазвичай це реляційна система баз даних. Дані очищаються, трансформуються та завантажуються в цей шар за допомогою внутрішніх інструментів.
- Середній рівень: Середній рівень у сховищі даних - це сервер OLAP, який реалізований за допомогою моделі ROLAP або MOLAP. Для користувача цей рівень програми представляє абстрактний вигляд бази даних. Цей рівень також виступає посередником між кінцевим користувачем та базою даних.
- Найвищий рівень: верхній рівень - це інтерфейсний клієнтський рівень. Найвищий рівень - це інструменти та API, які ви підключаєте та отримуєте дані зі сховища даних. Це можуть бути інструменти запитів, інструменти звітування, інструменти керованих запитів, інструменти аналізу та інструменти аналізу даних.
Компоненти Datawarehouse
Ми дізнаємося про компоненти Datawarehouse та архітектуру сховища даних зі схемою, як показано нижче:
Хранилище даних базується на сервері СУБД, який є центральним сховищем інформації, оточеним деякими ключовими компонентами Зберігання даних, щоб зробити все середовище функціональним, керованим та доступним.
В основному існує п’ять компонентів сховища даних:
База даних сховища даних
Центральна база даних є основою середовища зберігання даних. Ця база даних реалізована за технологією RDBMS. Хоча такий спосіб реалізації обмежений тим фактом, що традиційна система СУБД оптимізована для транзакційної обробки бази даних, а не для зберігання даних. Наприклад, спеціальні запити, об’єднання кількох таблиць, агрегати вимагають великих ресурсів та сповільнюють продуктивність.
Отже, використовуються альтернативні підходи до бази даних, перелічені нижче -
- У сховищі даних реляційні бази даних розгортаються паралельно, щоб забезпечити масштабованість. Паралельні реляційні бази даних також дозволяють спільну пам'ять або спільну модель нічого на різних багатопроцесорних конфігураціях або масово паралельних процесорах.
- Нові структури індексів використовуються для обходу реляційного сканування таблиці та підвищення швидкості.
- Використання багатовимірної бази даних (MDDB) для подолання будь-яких обмежень, які встановлені через реляційні моделі сховища даних. Приклад: Essbase від Oracle.
Інструменти пошуку, придбання, очищення та трансформації (ETL)
Інструменти пошуку, перетворення та міграції даних використовуються для виконання всіх перетворень, узагальнень та всіх змін, необхідних для перетворення даних в єдиний формат у сховищі даних. Їх також називають інструментами вилучення, перетворення та завантаження (ETL).
Їх функціональність включає:
- Анонімізуйте дані відповідно до нормативних положень.
- Усунення небажаних даних в операційних базах даних від завантаження до сховища даних.
- Шукати та замінювати загальні назви та визначення для даних, що надходять з різних джерел.
- Обчислення підсумків та похідних даних
- У разі відсутності даних заповніть їх за замовчуванням.
- Не повторювані повторювані дані, що надходять із декількох джерел даних.
Ці засоби вилучення, перетворення та завантаження можуть генерувати завдання cron, фонові завдання, програми Cobol, сценарії оболонки тощо, які регулярно оновлюють дані у сховищі даних. Ці інструменти також корисні для ведення метаданих.
Ці інструменти ETL мають вирішувати проблеми, пов'язані з базою даних та неоднорідністю даних.
Метадані
Назва Meta Data пропонує деякі високотехнологічні концепції зберігання даних. Однак це досить просто. Метадані - це дані про дані, які визначають сховище даних. Він використовується для побудови, обслуговування та управління сховищем даних.
В архітектурі сховища даних метадані відіграють важливу роль, оскільки визначають джерело, використання, значення та особливості даних сховища даних. Він також визначає, як дані можна змінювати та обробляти. Він тісно пов’язаний із сховищем даних.
Наприклад, рядок у базі даних про продажі може містити:
4030 KJ732 299.90
Це безглузді дані, поки ми не звернемося до Мети, яка каже нам, що це було
- Номер моделі: 4030
- Ідентифікатор агента з продажу: KJ732
- Загальна сума продажів $ 299,90
Отже, метадані є важливими компонентами для перетворення даних у знання.
Метадані допомагають відповісти на наступні запитання
- Які таблиці, атрибути та ключі містить сховище даних?
- Звідки взялися дані?
- Скільки разів дані перезавантажуються?
- Які перетворення були застосовані при очищенні?
Метадані можна класифікувати за такими категоріями:
- Технічні метадані : Цей вид метаданих містить інформацію про склад, який використовується дизайнерами та адміністраторами сховища даних.
- Ділові метадані: Цей вид метаданих містить деталі, які надають кінцевим користувачам легкий спосіб зрозуміти інформацію, що зберігається у сховищі даних.
Інструменти запитів
Одним з основних об’єктів зберігання даних є надання інформації підприємствам для прийняття стратегічних рішень. Інструменти запитів дозволяють користувачам взаємодіяти із системою сховища даних.
Ці інструменти поділяються на чотири різні категорії:
- Інструменти запитів та звітування
- Інструменти розробки додатків
- Інструменти для обробки даних
- Інструменти OLAP
1. Інструменти запитів та звітування:
Інструменти запитів та звітування можна розділити на
- Інструменти звітування
- Інструменти керованих запитів
Інструменти звітування:
Інструменти звітності можна розділити на інструменти звітності про виробництво та настільні програми звітності.
- Автори звітів: Цей інструмент звітування - це інструменти, призначені для кінцевих користувачів для їх аналізу.
- Звітність про виробництво: Цей тип інструментів дозволяє організаціям формувати регулярні оперативні звіти. Він також підтримує великі обсяги пакетних робіт, таких як друк та обчислення. Деякі популярні інструменти звітування - Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Інструменти керованих запитів:
Цей тип інструментів доступу допомагає кінцевим користувачам вирішувати проблеми у базі даних та SQL та структурі бази даних, вставляючи мета-шар між користувачами та базою даних.
2. Інструменти розробки додатків:
Іноді вбудовані графічні та аналітичні засоби не задовольняють аналітичним потребам організації. У таких випадках спеціальні звіти розробляються за допомогою засобів розробки додатків.
3. Інструменти збору даних:
Видобуток даних - це процес виявлення значущих нових кореляційних зв'язків, шаблонів та тенденцій шляхом видобутку великої кількості даних. Інструменти видобутку даних використовуються, щоб зробити цей процес автоматичним.
4. Інструменти OLAP:
Ці інструменти базуються на концепціях багатовимірної бази даних. Це дозволяє користувачам аналізувати дані, використовуючи складні та складні багатовимірні подання.
Склад даних Архітектура шини
Шина сховища даних визначає потік даних у вашому складі. Потік даних у сховищі даних може бути класифікований як Вхідний, Висхідний, Знижувальний, Вихідний і Метапотік.
Проектуючи шину даних, потрібно враховувати спільні виміри, факти на всіх полях даних.
Марки даних
Маршрутизатор даних - це рівень доступу, який використовується для надходження даних до користувачів. Він представлений як опція для великого сховища даних, оскільки для його створення потрібно менше часу та грошей. Тим не менш, не існує стандартного визначення поняття даних, яке відрізняється від людини до людини.
Простим словом Data mart - дочірня компанія сховища даних. Data mart використовується для розділення даних, який створюється для певної групи користувачів.
Марти даних можна створювати в тій самій базі даних, що і Datawarehouse, або фізично відокремленій базі даних.
Найкращі практики архітектури сховища даних
Щоб розробити архітектуру сховища даних, вам слід дотримуватися наведених нижче найкращих практик:
- Використовуйте моделі сховища даних, оптимізовані для отримання інформації, яка може бути розмірним режимом, денормалізованим або гібридним підходом.
- Виберіть відповідний підхід до проектування як підхід зверху вниз і знизу вгору в Сховищі даних
- Потрібно переконатися, що Дані обробляються швидко та точно. У той же час, слід застосувати підхід, який консолідує дані в єдину версію істини.
- Ретельно збирайте та очищуйте дані для сховища даних.
- Створіть архітектуру MetaData, яка дозволяє обмінюватися метаданими між компонентами Data Warehouse
- Подумайте про реалізацію моделі ODS, коли потреба у пошуку інформації знаходиться внизу піраміди абстракції даних або коли існує кілька оперативних джерел, до яких потрібно отримати доступ.
- Слід переконатися, що модель даних інтегрована, а не просто консолідована. У цьому випадку вам слід розглянути модель даних 3NF. Він також ідеально підходить для придбання інструментів очищення ETL та даних
Короткий зміст:
- Сховище даних - це інформаційна система, яка містить історичні та комутативні дані з одного або декількох джерел. Цими джерелами можуть бути традиційне сховище даних, хмарне сховище даних або віртуальне сховище даних.
- Сховище даних орієнтоване на предмет, оскільки воно пропонує інформацію про предмет, а не про поточні операції організації.
- У сховищі даних інтеграція означає встановлення загальної одиниці виміру для всіх подібних даних з різних баз даних
- Сховище даних також є енергонезалежним, тобто попередні дані не стираються при введенні нових даних.
- Datawarehouse - це варіант часу, оскільки дані в DW мають високий термін зберігання.
- В основному існує 5 компонентів архітектури сховища даних: 1) База даних 2) Інструменти ETL 3) Метадані 4) Інструменти запитів 5) DataMarts
- Це чотири основні категорії інструментів запитів 1. Запити та звітування, інструменти 2. Інструменти розробки додатків, 3. Інструменти аналізу даних 4. Інструменти OLAP
- Інструменти пошуку, перетворення та міграції даних використовуються для виконання всіх перетворень та узагальнень.
- В архітектурі сховища даних метадані відіграють важливу роль, оскільки визначають джерело, використання, значення та особливості даних сховища даних.