Ось питання моделювання даних для співбесіди як для більш свіжих, так і для досвідчених кандидатів.
1) Що таке моделювання даних?
Моделювання даних - це процес створення моделі для зберігання даних у базі даних. Це концептуальне представлення об’єктів даних, зв’язок між різними об’єктами даних та правилами.
2) Поясніть різні типи моделей даних
В основному існує три різні типи моделей даних:
Концептуальна: Концептуальна модель даних визначає, що повинна містити система. Ця модель, як правило, створюється зацікавленими сторонами бізнесу та архітекторами даних. Мета полягає в організації, охопленні та визначенні бізнес-концепцій та правил.
Логічний: визначає, як слід впроваджувати систему незалежно від СУБД. Ця модель, як правило, створюється архітекторами даних та бізнес-аналітиками. Метою є розробка технічної карти правил та структур даних.
Фізичний: Ця модель даних описує, як система буде впроваджена за допомогою певної системи СУБД. Цю модель зазвичай створюють DBA та розробники. Метою є фактична реалізація бази даних.
3) Поясніть таблицю фактів і фактів
Факт представляє кількісні дані. Наприклад, чиста сума, яка підлягає сплаті. Таблиця фактів містить числові дані, а також зовнішні ключі з мірних таблиць.
4) Перелічіть різні схеми проектування при моделюванні даних
Існує два різні типи схем моделювання даних: 1) Зіркова схема та 2) Сніжинка
5) Коли слід розглянути питання про денормалізацію?
Денормалізація використовується, коли таблиця багато залучає під час отримання даних. Він використовується для побудови сховища даних.
6) Поясніть розмірність та атрибут
Розміри представляють якісні дані. Наприклад, товар, клас, план тощо. Таблиця розмірів має текстові або описові атрибути. Наприклад, категорія товару та назва товару - це два атрибути таблиці розмірів товару.
7) У чому менший факт?
Факт менш важливий - це таблиця, що не має вимірювання фактів. Він містить лише розмірні клавіші.
8) Що таке аналітика в пам'яті?
Аналітика в пам'яті - це процес кешування бази даних в оперативній пам'яті.
9) У чому різниця між OLTP та OLAP?
OLTP | OLAP |
OLTP - це онлайн-система транзакцій. | OLAP - це онлайн-аналіз та процес отримання даних. |
Характеризується великою кількістю коротких онлайн-транзакцій. | Характеризується великим обсягом даних. |
OLTP використовує традиційні СУБД. | OLAP використовує сховище даних. |
Таблиці в базі даних OLTP нормалізовані. | Таблиці в OLAP не нормалізовані. |
Час його відгуку - в мілісекундах. | Час його відгуку становить секунди до хвилин. |
OLTP призначений для ділових операцій у режимі реального часу. | OLAP призначений для аналізу бізнес-показників за категоріями та ознаками. |
10) Що таке стіл?
Колекція рядків і стовпців називається таблицею. Кожен стовпець має тип даних. Таблиця містить відповідні дані у табличному форматі.
11) Що таке стовпець?
Стовпець або поле - це вертикальне розташування даних, що містять відповідну інформацію.
12) Визначте розрідженість даних
Економність даних - це термін, який використовується для того, скільки даних у вас є для сутності / виміру моделі.
13) Що таке складений первинний ключ?
Складений первинний ключ відноситься до випадку, коли в якості первинного ключа використовується більше одного стовпця таблиці.
14) Що таке первинний ключ?
Первинний ключ - це стовпець або група стовпців, які неоднаково ідентифікують кожен рядок у таблиці. Значення первинного ключа не може бути нульовим. Кожна таблиця повинна містити один первинний ключ.
15) Поясніть зовнішній ключ
Зовнішній ключ - це група атрибутів, яка використовується для зв’язку батьківської та дочірньої таблиць. Значення стовпця зовнішнього ключа, яке доступне в дочірній таблиці, посилається на значення первинного ключа в батьківській таблиці.
16) Що таке метадані?
Метадані описують дані про дані. Він показує, який тип даних насправді зберігається в системі баз даних.
17) Що таке data mart?
Маршрутизатор даних - це скорочена версія сховища даних і призначена для використання певним відділом, підрозділом або набором користувачів в організації. Наприклад, маркетингові продажі, HR або фінанси.
18) Що таке OLTP?
Інтернет-обробка транзакцій, скоро названа OLTP, підтримує орієнтовану на транзакції програму в 3-рівневій архітектурі. OLTP керує повсякденними операціями компанії чи організації.
19) Назвіть приклади системи OLTP?
Прикладами системи OLTP є:
- Надсилання текстового повідомлення
- Додайте книгу в кошик
- Онлайн бронювання авіаквитків
- Інтернет-банкінг
- Введення замовлення
20) Що таке обмеження перевірки?
Обмеження перевірки використовується для перевірки діапазону значень у стовпці.
21) Перелічіть типи нормалізації?
Типи нормалізації: 1) перша нормальна форма, 2) друга нормальна форма, 3) третя нормальна форма, 4) Бойс-кодд четверта і 5) п'ята нормальна форми.
22) Що таке інженерія прямих даних?
Форвардна інженерія - це технічний термін, що використовується для опису процесу автоматичного перекладу логічної моделі у фізичне обладнання.
23) Що таке PDAP?
Це куб даних, який зберігає дані як зведення. Це допомагає користувачеві швидко аналізувати дані. Дані в PDAP зберігаються таким чином, що звітування можна робити з легкістю.
24) Поясніть дизайн бази даних схем снігових пластівців
Схема сніжинки - це розташування таблиці розмірів та таблиці фактів. Як правило, обидві таблиці додатково розбиваються на таблиці розмірів.
25) Поясніть службу аналізу
Послуга аналізу надає комбінований вигляд даних, які використовуються в аналізі даних або OLAP.
26) Що таке алгоритм кластеризації послідовностей?
Алгоритм кластеризації послідовностей збирає шляхи, подібні або пов’язані між собою, та послідовності даних, що мають події.
27) Що таке дискретні та безперервні дані?
Стримані дані - це кінцеві дані або визначені дані. Наприклад, стать, номери телефонів. Безперервні дані - це дані, які змінюються безперервно і впорядковано. Наприклад, вік.
28) Що таке алгоритм часових рядів?
Алгоритм часових рядів - це метод прогнозування безперервних значень даних у таблиці. Наприклад, ефективність роботи Один працівник може прогнозувати прибуток або вплив.
29) Що таке бізнес-аналітика?
BI (Business Intelligence) - це сукупність процесів, архітектур та технологій, які перетворюють необроблені дані у значущу інформацію, що керує прибутковими діловими діями. Це набір програмного забезпечення та послуг для перетворення даних на діючий інтелект та знання.
30) Що таке бітовий індекс?
Бітові індекси - це особливий тип індексу бази даних, який використовує бітові карти (бітові масиви) для відповіді на запити, виконуючи побітові операції.
31) Детально поясніть зберігання даних
Зберігання даних - це процес збору та управління даними з різних джерел. Він надає значущі ідеї для ведення бізнесу. Зберігання даних зазвичай використовується для підключення та аналізу даних з неоднорідних джерел. Це ядро системи BI, яка побудована для аналізу даних та звітування.
32) Що таке розмір сміття?
Небажаний вимір поєднує дві або більше пов'язаних потужностей в один вимір. Зазвичай це булеві значення або значення прапора.
33) Поясніть схему даних
Схема даних - це схематичне зображення, яке ілюструє взаємозв'язки та структури даних.
34) Поясніть частоту збору даних
Частота збору даних - це швидкість збору даних. Він також проходить через різні стадії. Ці етапи: 1) вилучення з різних джерел, 3) перетворення, 4) очищення та 5) зберігання.
35) Що таке потужність бази даних?
Ефективність - це числовий атрибут відносин між двома сутностями або наборами сутностей.
36) Які існують різні типи кардинальних стосунків?
Різні типи ключових кардинальних відносин:
- Індивідуальні відносини
- Відносини "один до багатьох"
- Відносини багато-до-одного
- Відносини багато-до-багатьох
37) Визначте критичний фактор успіху та перелічіть чотири його типи
Критичний фактор успіху - це сприятливий результат будь-якої діяльності, необхідної організації для досягнення своєї мети.
Чотири типи критичного фактора успіху:
- Промислові КСФ
- Стратегія CSF
- Екологічні КСФ
- Часові CSF
38) Що таке аналіз даних?
Видобуток даних - це мультидисциплінарна навичка, яка використовує машинне навчання, статистику, ШІ та технології баз даних. Вся справа в виявленні не підозрюваних / раніше невідомих зв’язків між даними.
39) У чому різниця між схемою Зірка та Сніжинка?
Схема зірок | Схема сніжинки |
Ієрархії розмірів зберігаються у таблиці розмірів. | Ієрархії розділені на окремі таблиці. |
Він містить таблицю фактів, оточену таблицями розмірів. | Одна таблиця фактів, оточена таблицею розмірностей, яка, в свою чергу, оточена таблицею розмірностей |
У зірковій схемі лише одне об’єднання створює взаємозв’язок між таблицею фактів та будь-якими таблицями розмірностей. | Схема сніжинки вимагає багатьох об'єднань для отримання даних. |
Він має простий дизайн бази даних | Він має складний дизайн бази даних |
Денормалізована структура даних та запити також працюють швидше. | Нормалізована структура даних. |
Високий рівень надмірності даних | Дуже низький рівень надмірності даних |
Запропонує ефективніші запити за допомогою оптимізації запитів Star Join Query. Столи можуть бути з'єднані з різними розмірами. | Схема Снігової пластівці представлена централізованою таблицею фактів, яка навряд чи пов'язана з різними вимірами. |
40) Що таке ідентифікаційні стосунки?
Ідентифікація взаємозв’язків сутності в СУБД використовується для ідентифікації зв’язків між двома об’єктами: 1) сильним об’єктом та 2) слабким об’єктом.
41) Що таке саморекурсивні стосунки?
Рекурсивні відносини - це самостійний стовпець у таблиці, який підключений до первинного ключа тієї ж таблиці.
42) Поясніть реляційне моделювання даних
Реляційне моделювання даних - це представлення об’єктів у реляційній базі даних, яке зазвичай нормується.
43) Що таке аналітика прогнозного моделювання?
Процес перевірки або тестування моделі, яка використовується для прогнозування тестування та перевірки результатів. Його можна використовувати для машинного навчання, штучного інтелекту, а також для статистики.
44) У чому різниця між логічною моделлю даних та фізичною моделлю даних?
Логічна модель даних | Фізична модель даних |
Логічна модель даних може логічно розробити вимоги бізнесу. | Фізична модель даних надає інформацію про цільове джерело бази даних та його властивості. |
Він відповідає за фактичну реалізацію даних, які зберігаються в базі даних. | Фізична модель даних допомагає створити нову модель бази даних із існуючої та застосувати обмеження цілісності посилань. |
Він містить сутність, атрибути первинного ключа, ключі інверсії, альтернативний ключ, правило, ділові відносини, визначення тощо. | Фізична модель даних містить таблицю, обмеження ключів, унікальний ключ, стовпці, зовнішній ключ, індекси, значення за замовчуванням тощо. |
45) Які існують різні типи обмежень?
Інший тип обмеження може бути унікальним, нульовими значеннями, зовнішніми ключами, складеним ключем або обмеженням перевірки тощо.
46) Що таке інструмент моделювання даних?
Інструмент моделювання даних - це програмне забезпечення, яке допомагає у побудові потоку даних та зв'язку між даними. Прикладами таких інструментів є Borland Together, Altova Database Spy, casewise, Case Studio 2 тощо.
47) Що таке ієрархічна СУБД?
В ієрархічній базі даних моделі впорядковано у деревоподібну структуру. Дані зберігаються в ієрархічному форматі. Дані представлені за допомогою стосунків батьків та дітей. В ієрархічній СУБД батько може мати багато дітей, діти мають лише одного батька.
48) Які є недоліки ієрархічної моделі даних?
Недоліками ієрархічної моделі даних є:
- Він не є гнучким, оскільки потрібен час, щоб адаптуватися до мінливих потреб бізнесу.
- Структура ставить проблему у міжвідомчих комунікаціях, вертикальних комунікаціях, а також міжвідомчих комунікаціях.
- Ієрархічна модель даних може створити проблеми роз'єднаності.
49) Поясніть технологічний підхід до моделювання даних
Процесно-керований підхід, що застосовується в моделюванні даних, слідує поетапному методу взаємозв'язку між моделлю сутності та організаційного процесу.
50) Які переваги використання моделювання даних?
Перевагами використання моделювання даних при зберіганні даних є:
- Це допомагає управляти бізнес-даними, нормалізуючи їх та визначаючи їх атрибути.
- Моделювання даних інтегрує дані різних систем для зменшення надмірності даних.
- Це дозволяє створити ефективний дизайн бази даних.
- Моделювання даних допомагає організаційному відділу функціонувати як команда.
- Це полегшує легкий доступ до даних.
51) Які недоліки використання моделювання даних?
Недоліками використання моделювання даних є:
- Він має меншу структурну незалежність
- Це може зробити систему складною.
52) Що таке індекс?
Індекс використовується для стовпця або групи стовпців для швидкого отримання даних.
53) Які характеристики логічної моделі даних?
Характеристиками логічної моделі даних є:
- Описує потреби в даних для одного проекту, але може інтегруватися з іншими логічними моделями даних на основі обсягу проекту.
- Розроблено та розроблено незалежно від СУБД.
- Атрибути даних матимуть типи даних із точною точністю та довжиною.
- Процеси нормалізації до моделі, яка зазвичай застосовується зазвичай до 3NF.
54) Які характеристики фізичної моделі даних?
Характеристиками фізичної моделі даних є:
- Фізична модель даних описує необхідність даних для одного проекту або програми. Він може бути інтегрований з іншими фізичними моделями даних на основі обсягу проекту.
- Модель даних містить взаємозв'язки між таблицями, що стосуються потужності та обнулення відносин.
- Розроблено для конкретної версії СУБД, розташування, зберігання даних або технології, яка буде використана в проекті.
- Стовпці повинні мати точні типи даних, присвоєні довжини та значення за замовчуванням.
- Визначаються первинні та зовнішні ключі, подання, індекси, профілі доступу, авторизації тощо.
55) Які два типи методів моделювання даних?
Два типи методів моделювання даних: 1) модель взаємозв'язку сутності (ER) та 2) UML (уніфікована мова моделювання).
56) Що таке UML?
UML (уніфікована мова моделювання) - це універсальна мова для розробки баз даних, мова моделювання в галузі програмного забезпечення. Основний намір полягає у забезпеченні узагальненого способу візуалізації дизайну системи.
57) Поясніть об’єктно-орієнтовану модель бази даних
Об'єктно-орієнтована модель бази даних - це сукупність об'єктів. Ці об'єкти можуть мати як пов'язані функції, так і методи.
58) Що таке мережева модель?
Це модель, яка побудована на ієрархічній моделі. Це дозволяє більше ніж одному відношенню пов'язувати записи, що вказує на те, що у нього є кілька записів. Можна побудувати набір батьківських записів та дочірніх записів. Кожен запис може належати до декількох наборів, що дозволяють виконувати складні взаємозв'язки таблиць.
59) Що таке хешування?
Хешування - це техніка, яка використовується для пошуку всіх значень індексу та отримання бажаних даних. Це допомагає розрахувати пряме розташування даних, які записуються на диск, не використовуючи структуру індексу.
60) Що таке бізнес або природні ключі?
ділові або природні ключі - це поле, яке однозначно ідентифікує сутність. Наприклад, ідентифікатор клієнта, номер працівника, електронна пошта тощо.
61) Що таке складений ключ?
Коли для представлення ключа використовується більше одного поля, це називається складним ключем.
62) Що таке перша нормальна форма?
Перша нормальна форма або 1NF - це властивість відношення, доступне в реляційній системі управління базами даних. Будь-яке відношення називається першою нормальною формою, якщо домен кожного атрибута містить атомні значення. Він містить одне значення з цього домену.
63) У чому різниця між первинним та зовнішнім ключами?
Первинний ключ | Зовнішній ключ |
Первинний ключ допомагає однозначно ідентифікувати запис у таблиці. | Зовнішній ключ - це поле таблиці, яке є первинним ключем іншої таблиці. |
Первинний ключ ніколи не приймає нульові значення. | Зовнішній ключ може приймати кілька нульових значень. |
Первинний ключ - це кластерний індекс, а дані в таблиці СУБД фізично організовані в послідовності кластерного індексу. | Зовнішній ключ не може автоматично створити індекс, кластеризований або некластеризований. Однак ви можете вручну створити індекс зовнішнього ключа. |
Ви можете мати єдиний первинний ключ у таблиці. | Ви можете мати кілька зовнішніх ключів у таблиці. |
64) Які вимоги має друга нормальна форма?
Вимогами другої нормальної форми є:
- Це повинно бути у першій нормальній формі.
- Він не містить жодного непростого атрибута, який функціонально залежить від будь-якої підмножини ключа-кандидата відношення таблиці.
65) Які правила існують для третьої нормальної форми?
Правилами для третіх нормальних форм є:
- Це має бути у другій нормальній формі
- Він не має перехідних функціональних залежностей.
66) Яке значення використання клавіш?
- Клавіші допомагають ідентифікувати будь-який рядок даних у таблиці. У реальному додатку таблиця може містити тисячі записів.
- Ключі гарантують, що ви можете однозначно ідентифікувати запис таблиці, незважаючи на ці проблеми.
- Дозволяє встановити зв'язок між та визначити зв'язок між таблицями
- Допоможе вам забезпечити особистість та цілісність у стосунках.
67) Що таке сурогатний ключ?
Штучний ключ, який прагне однозначно ідентифікувати кожен запис, називається сурогатним ключем. Ці типи ключів унікальні, оскільки вони створюються, коли у вас немає природного первинного ключа. Вони не надають ніякого значення даним у таблиці. Сурогатний ключ, як правило, ціле число.
68) Детально поясніть альтернативний ключ
Альтернативний ключ - це стовпець або група стовпців у таблиці, яка однозначно ідентифікує кожен рядок у цій таблиці. Таблиця може мати кілька варіантів для первинного ключа, але лише один може бути встановлений як первинний ключ. Усі ключі, які не є первинними ключами, називаються альтернативними ключами.
69) Що таке четверта нормальна форма в СУБД?
Четверта нормальна форма - це рівень нормалізації бази даних, де не повинно бути нетривіальних залежностей, крім ключа-кандидата.
70) Що таке система управління базами даних?
Система управління базами даних або СУБД - це програмне забезпечення для зберігання та отримання даних користувачів. Він складається з групи програм, які маніпулюють базою даних.
71) Яке правило п’ятої нормальної форми?
Таблиця знаходиться у 5- й нормальній формі, лише якщо вона у 4- й нормальній формі, і її не можна розкласти на будь-яку кількість менших таблиць без втрати даних.
72) Що таке нормалізація?
Нормалізація - це техніка проектування бази даних, яка організовує таблиці таким чином, щоб зменшити надмірність та залежність даних. Він ділить більші таблиці на менші таблиці та зв’язує їх за допомогою взаємозв’язків.
73) Поясніть характеристики системи управління базами даних
- Забезпечує безпеку та усуває надмірність
- Самоопис природи системи баз даних
- Ізоляція між програмами та абстракцією даних
- Підтримка декількох подань даних.
- Спільний доступ до даних та обробка багатокористувацьких транзакцій
- СУБД дозволяє сутностям і відносинам між ними формувати таблиці.
- Він відповідає концепції кислоти (атомність, послідовність, ізоляція та довговічність).
- СУБД підтримує багатокористувацьке середовище, що дозволяє паралельно отримувати доступ до даних та маніпулювати ними.
74) Перелічіть популярне програмне забезпечення СУБД
Популярне програмне забезпечення СУБД:
- MySQL
- Microsoft Access
- Oracle
- PostgreSQL
- dbase
- FoxPro
- SQLite
- IBM DB2
- Microsoft SQL Server.
75) Поясніть поняття СУБД
Реляційна система управління базами даних - це програмне забезпечення, яке використовується для зберігання даних у вигляді таблиць. У цій системі дані управляються і зберігаються в рядках і стовпцях, які відомі як кортежі та атрибути. RDBMS - це потужна система управління даними, яка широко використовується у всьому світі.
76) У чому переваги моделі даних?
Перевагами моделі даних є:
- Основною метою проектування моделі даних є переконатися, що об’єкти даних, запропоновані функціональною командою, представлені точно.
- Модель даних повинна бути досить детальною, щоб використовувати її для побудови фізичної бази даних.
- Інформація в моделі даних може бути використана для визначення взаємозв'язку між таблицями, первинним та зовнішнім ключами та збереженими процедурами.
- Модель даних допомагає компаніям спілкуватися всередині та між організаціями.
- Модель даних допомагає документувати відображення даних у процесі ETL
- Допоможіть розпізнати правильні джерела даних для заповнення моделі
77) Які недоліки моделі даних?
Недоліками моделі даних є:
- Для розробки моделі даних слід знати фізичні характеристики даних, що зберігаються.
- Це навігаційна система, яка виробляє складну розробку додатків, управління ними. Отже, воно вимагає знання біографічної істини.
- Ще менші зміни, внесені в структуру, вимагають змін у цілому додатку.
- У СУБД немає набору мови для обробки даних.
78) Поясніть різні типи таблиць фактів
Існує три типи таблиць фактів:
- Добавка: Це міра, яка додається до будь-якого виміру.
- Неадитивний: це міра, яку не можна додати до будь-якого виміру.
- Напівдобавка: це міра, яку можна додати до кількох вимірів.
79) Що таке сукупна таблиця?
Зведена таблиця містить зведені дані, які можна обчислити за допомогою таких функцій, як: 1) Середнє значення 2) МАКС, 3) Кількість, 4) СУМА, 5) СУМА та 6) МІН.
80) Що таке підтверджений вимір?
Конформний вимір - це вимір, який розроблений таким чином, що може бути використаний у багатьох таблицях фактів у різних областях сховища даних.
81) Перелічіть типи ієрархій у моделюванні даних
Існує два типи ієрархій: 1) ієрархії, засновані на рівні, та 2) ієрархії батьків-дочірніх.
82) У чому різниця між інформаційним маршем та сховищем даних?
Дані март | Інформаційне сховище |
Data mart фокусується на одній предметній галузі бізнесу. | Сховище даних фокусується на багатьох сферах бізнесу. |
Застосовується для прийняття тактичних рішень для зростання бізнесу. | Це допомагає власникам бізнесу прийняти стратегічне рішення |
Data mart дотримується моделі знизу вгору | Сховище даних відповідає моделі зверху вниз |
Джерело даних походить з одного джерела даних | Джерело даних походить з декількох різнорідних джерел даних. |
83) Що таке XMLA?
XMLA - це XML-аналіз, який розглядається як стандарт для доступу до даних в Інтернет-аналітичній обробці (OLAP).
84) Поясніть розмір сміття
Небажаний вимір допомагає зберігати дані. Він використовується, коли дані не є належним чином зберігати в схемі.
85) Поясніть ланцюгову реплікацію даних
Ситуація, коли вторинний вузол вибирає ціль за допомогою часу пінгу або коли найближчий вузол є вторинним, це називається ланцюжковою реплікацією даних.
86) Поясніть віртуальне зберігання даних
Віртуальне сховище даних дає колективне уявлення про завершені дані. Віртуальне сховище даних не має історичних даних. Він розглядається як логічна модель даних, що має метадані.
87) Поясніть знімок сховища даних
Знімок - це повна візуалізація даних на момент початку процесу вилучення даних.
88) Що таке двонаправлений екстракт?
Здатність системи витягувати, очищати та передавати дані у двох напрямках називається спрямованим витягом.