25 найкращих запитань для інтерв’ю для тестування ETL & Відповіді

Anonim

Нижче наведені запитання, що часто задаються в інтерв’ю для свіжих, а також досвідчених тестерів та розробників ETL.

1) Що таке ETL?

В архітектурі зберігання даних ETL є важливим компонентом, який управляє даними для будь-якого бізнес-процесу. ETL означає Extract, Transform і навантаження . Витяг робить процес зчитування даних з бази даних. Transform здійснює перетворення даних у формат, який може бути доречним для звітування та аналізу. В той час як load виконує процес запису даних у цільову базу даних.

2) Поясніть, що включає тестування ETL?

Тестування ETL включає

  • Перевірте, чи дані трансформуються правильно відповідно до бізнес-вимог
  • Переконайтеся, що прогнозовані дані завантажуються у сховище даних без будь-яких скорочень та втрати даних
  • Переконайтеся, що програма ETL повідомляє про недійсні дані та замінює значеннями за замовчуванням
  • Переконайтеся, що дані завантажуються в очікуваний часовий проміжок для поліпшення масштабованості та продуктивності

3) Згадайте, які типи програм зберігання даних і яка різниця між інтелектуальним аналізом даних та зберіганням даних?

Типи програм зберігання даних є

  • Обробка інформації
  • Аналітична обробка
  • Видобуток даних

Видобуток даних можна визначити як процес вилучення прихованої передбачувальної інформації з великих баз даних та інтерпретації даних, тоді як зберігання даних може використовувати шахту даних для аналітичної обробки даних більш швидким способом. Зберігання даних - це процес об’єднання даних з декількох джерел в одне загальне сховище

4) Які різні інструменти використовуються в ETL?

  • Потік прийняття рішень Cognos
  • Oracle Warehouse Builder
  • Бізнес-об'єкти XI
  • Бізнес-склад SAS
  • Сервер ETL SAS Enterprise

5) Що таке факт? Які існують типи фактів?

Це центральний компонент багатовимірної моделі, що містить заходи, що підлягають аналізу. Факти пов'язані з розмірами.

Види фактів бувають

  • Аддитивні факти
  • Напівадитивні факти
  • Неадитивні факти

6) Поясніть, що таке кубики та кубики OLAP?

Куби - це блоки обробки даних, що складаються з таблиць фактів та розмірів із сховища даних. Він забезпечує багатовимірний аналіз.

OLAP розшифровується як обробка онлайн-аналітики, а куб OLAP зберігає великі дані у багатовимірній формі для звітності. Він складається з фактів, які називаються заходами, класифікованими за розмірами.

7) Поясніть, що таке рівень калькування та які типи?

Рівень трасування - це обсяг даних, що зберігається у файлах журналів. Рівень трасування можна класифікувати за двома Звичайний та Детальний. Звичайний рівень детально пояснює рівень трасування, тоді як детальний пояснює рівні трасування у кожному рядку.

8) Поясніть, що таке зерно факту?

Зерновий факт можна визначити як рівень, на якому зберігається інформація про факт. Він також відомий як Фактична детальність

9) Поясніть, що таке необгрунтована схема фактів, а що таке Заходи?

Таблиця фактів без мір відома як Фактична таблиця фактів. Він може переглядати кількість подій, що відбуваються. Наприклад, він використовується для запису такої події, як підрахунок співробітників у компанії.

Числові дані, що базуються на стовпцях таблиці фактів, відомі як Міри

10) Поясніть, що таке трансформація?

Трансформація - це об’єкт сховища, який генерує, модифікує або передає дані. Трансформація буває двох типів Активна та Пасивна

11) Поясніть використання перетворення підстановки?

Трансформація пошуку корисна для

  • Отримання пов'язаного значення з таблиці за допомогою значення стовпця
  • Оновіть повільно мінливу таблицю розмірів
  • Перевірте, чи вже існують записи в таблиці

12) Поясніть, що таке секціонування, хеш-розділення та кругове розділення?

Для поліпшення продуктивності транзакції поділяються на підрозділи, що називається секціонуванням. Розподіл дозволяє Informatica Server створювати кілька підключень до різних джерел

Типи розділів бувають

Розбиття на круглі Робіни:

  • За допомогою informatica дані розподіляються рівномірно між усіма розділами
  • У кожному розділі, де кількість рядків для обробки приблизно однакова, це розділення застосовується

Розділення хешу:

  • З метою розділення ключів для групування даних між розділами сервер Informatica застосовує хеш-функцію
  • Він використовується, коли забезпечується забезпечення процесів груп рядків з однаковим ключем секціонування в одному розділі

13) Згадайте, яка перевага використання адаптера призначення DataReader?

Перевага використання адаптера призначення DataReader Destination полягає в тому, що він заповнює набір записів ADO (складається із записів та стовпців) у пам’яті та виставляє дані із завдання DataFlow шляхом реалізації інтерфейсу DataReader, щоб інша програма могла споживати дані.

14) За допомогою SSIS (Служба інтеграції SQL Server) можливі способи оновлення таблиці?

Для оновлення таблиці за допомогою SSIS можливі наступні способи:

  • Використовуйте команду SQL
  • Використовуйте інсценізаційний стіл
  • Використовуйте кеш
  • Використовуйте сценарій завдання
  • Використовуйте повне ім’я бази даних для оновлення, якщо використовується MSSQL

15) Якщо у вас є джерело для пошуку, яке не стосується OLEDB (Об’єднання об’єктів та вбудова бази даних), що б ви зробили?

Якщо у вас є джерело не для OLEBD для пошуку, вам доведеться використовувати кеш для завантаження даних і використовувати його як джерело

16) У якому випадку ви використовуєте динамічний кеш та статичний кеш у підключених та не зв’язаних перетвореннях?

  • Динамічний кеш використовується, коли вам потрібно оновити основну таблицю та повільно змінюючи розміри (SCD) тип 1
  • Для плоских файлів використовується статичний кеш

17) Поясніть, у чому різниця між підключеним та підключеним пошуком?

Підключений пошук

Незв’язаний пошук

  • Підключений пошук бере участь у відображенні

- Він використовується, коли під час відображення використовується функція пошуку замість перетворення виразу

  • Можна повернути кілька значень

- Повертає лише один вихідний порт

  • Він може бути підключений до іншого перетворення і повертає значення
  • Чергове перетворення не може бути пов’язане
  • Для підключеного пошуку можна використовувати статичний або динамічний кеш
  • Від’єднано як лише статичний кеш
  • Підключений пошук підтримує визначені користувачем значення за замовчуванням
  • Незв’язаний пошук не підтримує визначені користувачем значення за замовчуванням
  • У підключеному пошуку кілька стовпців можна повернути з одного рядка або вставити в кеш динамічного пошуку
  • Незв’язаний пошук позначає один порт повернення та повертає по одному стовпцю з кожного рядка

18) Поясніть, що таке подання джерела даних?

Перегляд джерела даних дозволяє визначити реляційну схему, яка буде використовуватися в базах даних служб аналізу. Замість того, щоб безпосередньо з об'єктів джерела даних, розміри та куби створюються з подань джерела даних.

19) Поясніть, в чому різниця між інструментами OLAP та інструментами ETL?

Різниця між інструментом ETL та OLAP полягає в тому

Інструмент ETL призначений для вилучення даних із застарілих систем та завантаження у зазначену базу даних з деяким процесом очищення даних.

Приклад: етап даних, Informatica тощо

Хоча OLAP призначений для звітності в даних OLAP, доступних у багатонаправленій моделі.

Приклад: Бізнес-об'єкти, Cognos тощо

20) Як витягти дані SAP за допомогою Informatica?

  • За допомогою функції підключення живлення ви отримуєте дані SAP за допомогою informatica
  • Встановіть та налаштуйте інструмент PowerConnect
  • Імпортуйте джерело в Source Analyzer. Між Informatica та SAP Powerconnect виступає в ролі шлюзу. Наступним кроком є ​​створення коду ABAP для відображення, тоді лише інформатика може витягувати дані з SAP
  • Для підключення та імпорту джерел із зовнішніх систем використовується Power Connect

21) Згадайте, у чому різниця між Power Mart та Power Center?

Центр живлення

Power Mart

  • Припустимо, обробляти величезний обсяг даних
  • Припустимо, обробити невеликий обсяг даних
  • Він підтримує джерела ERP, такі як SAP, програмне забезпечення для людей тощо.
  • Він не підтримує джерела ERP
  • Він підтримує локальне та глобальне сховище
  • Він підтримує локальне сховище
  • Він перетворює локальне в глобальне сховище
  • Він не має специфікації для перетворення локального в глобальне сховище

22) Поясніть, що таке площадка постановки та яке призначення площадки постановки?

Інтернетування даних - це область, де ви тимчасово зберігаєте дані на сервері сховища даних. Постановка даних включає наступні кроки

  • Вилучення вихідних даних та їх перетворення (реструктуризація)
  • Перетворення даних (очищення даних, перетворення цінностей)
  • Призначення сурогатних ключів

23) Що таке схема автобусів?

Для різних бізнес-процесів для визначення загальних вимірів використовується схема BUS. Він має відповідні розміри, а також стандартизоване визначення інформації

24) Поясніть, що таке очищення даних?

Очищення даних - це процес видалення даних із сховища даних. Він видаляє непотрібні дані, такі як рядки з нульовими значеннями або зайвими пробілами.

25) Поясніть, що таке об’єкти схеми?

Об'єкти схеми - це логічна структура, яка безпосередньо посилається на дані баз даних. Об'єкти схеми включають таблиці, подання, синоніми послідовностей, індекси, кластери, пакети функцій та посилання на базу даних

26) Поясніть ці терміни Session, Worklet, Mapplet і Workflow?

  • Mapplet: Він організовує або створює набори перетворень
  • Worklet: Він представляє конкретний набір завдань, що ставляться
  • Робочий процес: це набір інструкцій, які повідомляють серверу про те, як виконувати завдання
  • Сесія: Це набір параметрів, який повідомляє серверу, як переміщати дані з джерел у цільові

Безкоштовне завантаження PDF: Запитання та відповіді на інтерв’ю для тестування ETL