Найпопулярніші 62 запитання співбесіди інженера даних & Відповіді

Тут найчастіше задаються питання співбесіди інженера з даних як для свіжих, так і для досвідчених кандидатів, щоб отримати потрібну роботу.

1) Поясніть інженерію даних.

Інженерія даних - це термін, що використовується у великих даних. Основна увага приділяється застосуванню збору даних та дослідженням. Дані, що генеруються з різних джерел, - це лише необроблені дані. Інженерія даних допомагає перетворити ці необроблені дані в корисну інформацію.

2) Що таке моделювання даних?

Моделювання даних - це метод документування складного програмного забезпечення як діаграми, щоб кожен міг легко зрозуміти. Це концептуальне представлення об’єктів даних, які пов’язані між різними об’єктами даних та правилами.

3) Перелічіть різні типи схем проектування в моделюванні даних

У моделюванні даних в основному існує два типи схем: 1) схема зірочок і 2) схема сніжинки.

4) Розрізняти структуровані та неструктуровані дані

Нижче наведена різниця між структурованими та неструктурованими даними:

Параметр	Структуровані дані	Неструктуровані дані
Зберігання	СУБД	Некеровані файлові структури
Стандартний	ADO.net, ODBC та SQL	STMP, XML, CSV та SMS
Інструмент інтеграції	ELT (витяг, перетворення, завантаження)	Введення даних вручну або пакетна обробка, що включає коди
масштабування	Масштабування схеми складно	Масштабування дуже легко.

5) Поясніть усі компоненти програми Hadoop

Нижче наведено компоненти програми Hadoop:

Hadoop Common: Це загальний набір утиліт та бібліотек, які використовуються Hadoop.
HDFS: Ця програма Hadoop стосується файлової системи, в якій зберігаються дані Hadoop. Це розподілена файлова система, що має високу пропускну здатність.
Hadoop MapReduce: Він базується відповідно до алгоритму забезпечення широкомасштабної обробки даних.
Пряжа Hadoop: використовується для управління ресурсами в кластері Hadoop. Він також може бути використаний для планування завдань для користувачів.

6) Що таке NameNode?

Це центральний елемент HDFS. Він зберігає дані HDFS і відстежує різні файли в кластерах. Тут фактичні дані не зберігаються. Дані зберігаються в DataNodes.

7) Визначте трансляцію Hadoop

Це утиліта, яка дозволяє створювати карту, зменшує кількість робочих місць і подає їх у певний кластер.

8) Яка повна форма HDFS?

HDFS розшифровується як Hadoop Distributed File System.

9) Визначте блок і блочний сканер у HDFS

Блоки - це найменша одиниця файлу даних. Hadoop автоматично розбиває величезні файли на дрібні шматочки.

Block Scanner перевіряє список блоків, представлених на DataNode.

10) Які дії виконуються, коли Block Scanner виявляє пошкоджений блок даних?

Нижче наведені кроки, які відбуваються, коли Block Scanner знаходить пошкоджений блок даних:

1) Перш за все, коли сканер блоків виявляє пошкоджений блок даних, DataNode повідомляє NameNode

2) NameNode розпочати процес створення нової репліки за допомогою репліки пошкодженого блоку.

3) Кількість реплікацій правильних реплік намагається збігатися з коефіцієнтом реплікації. Якщо збіг знайдено, пошкоджений блок даних не буде видалений.

11) Назвіть два повідомлення, які NameNode отримує від DataNode?

Є два повідомлення, які NameNode отримує від DataNode. Це 1) звіт про блокування та 2) серцебиття.

12) Перелічити різні файли конфігурації XML у Hadoop?

У Hadoop є п’ять файлів конфігурації XML:

Картографічний сайт
Основний сайт
HDFS-сайт
Пряжа-сайт

13) Що таке чотири V великих даних?

Чотири V великих даних:

Швидкість
Різноманітність
Гучність
Правдивість

14) Поясніть особливості Hadoop

Важливими особливостями Hadoop є:

Це фреймворк з відкритим кодом, який доступний безкоштовно.
Hadoop сумісний з багатьма типами апаратного забезпечення та легко отримує доступ до нового обладнання в межах конкретного вузла.
Hadoop підтримує швидшу розподілену обробку даних.
Він зберігає дані в кластері, який не залежить від решти операцій.
Hadoop дозволяє створювати 3 репліки для кожного блоку з різними вузлами.

15) Поясніть основні методи Редуктора

setup (): Використовується для налаштування таких параметрів, як розмір вхідних даних та розподілений кеш.
cleanup (): Цей метод використовується для очищення тимчасових файлів.
зменшити (): Це серце редуктора, яке викликається один раз за клавішею з відповідним зменшеним завданням

16) Що таке абревіатура COSHH?

Абревіатура COSHH - це Розклад на основі класифікації та оптимізації для різнорідних систем Hadoop.

17) Поясніть схему зірок

Зіркова схема або Зіркова схема приєднання - це найпростіший тип схеми сховища даних. Вона відома як схема зірок, оскільки її структура схожа на зірку. У схемі "Зірка" центр зірки може мати одну таблицю фактів і декілька пов'язаних таблиць розмірів. Ця схема використовується для запитів великих наборів даних.

18) Як розгорнути рішення для великих даних?

Виконайте наступні кроки, щоб розгорнути рішення для великих даних.

1) Інтегруйте дані, використовуючи такі джерела даних, як RDBMS, SAP, MySQL, Salesforce

2) Зберігайте дані, витягнуті в базі даних NoSQL або HDFS.

3) Розгорніть рішення для обробки великих даних, використовуючи такі фреймворки, як Pig, Spark та MapReduce

19) Поясніть FSCK

Перевірка файлової системи або FSCK - це команда, що використовується HDFS. Команда FSCK використовується для перевірки невідповідностей та проблем у файлі.

20) Поясніть схему сніжинки

Схема сніжинки - це продовження зіркової схеми, яка додає додаткові розміри. Це так звана сніжинка, оскільки її схема схожа на Сніжинку. Таблиці розмірностей нормалізовані, що розбиває дані на додаткові таблиці.

21) Розрізнити схему зірок та сніжинок

Зірка	Схема SnowFlake
Ієрархії розмірів зберігаються у мірній таблиці.	Кожна ієрархія зберігається в окремих таблицях.
Шанси надмірності даних є великими	Шанси надмірності даних низькі.
Він має дуже просту конструкцію БД	Він має складну конструкцію БД
Забезпечте швидший спосіб обробки куба	Обробка куба повільна через складне з'єднання.

22) Поясніть розподілену файлову систему Hadoop

Hadoop працює з масштабованими розподіленими файловими системами, такими як S3, HFTP FS, FS та HDFS. Розподілена файлова система Hadoop створена у файловій системі Google. Ця файлова система розроблена таким чином, що вона може легко працювати на великому кластері комп'ютерної системи.

23) Поясніть основні обов’язки інженера даних

Інженери даних мають багато обов’язків. Вони керують вихідною системою даних. Інженери даних спрощують складну структуру даних і запобігають зменшенню кількості даних. Багато разів вони також забезпечують ELT та перетворення даних.

24) Яка повна форма Пряжі?

Повна форма Пряжі - це ще один переговорник про ресурси.

25) Перелічіть різні режими в Hadoop

Режими в Hadoop: 1) Автономний режим 2) Псевдо розподілений режим 3) Повністю розподілений режим.

26) Як досягти безпеки в Hadoop?

Виконайте такі дії для забезпечення безпеки в Hadoop:

1) Першим кроком є захист каналу автентифікації клієнта на сервері. Надайте клієнту відмітку про час.

2) На другому кроці клієнт використовує отриману відмітку часу для запиту TGS на квиток на послугу.

3) На останньому кроці клієнт використовує службовий квиток для самостійної автентифікації до певного сервера.

27) Що таке серцебиття в Hadoop?

У Hadoop NameNode і DataNode взаємодіють між собою. Серцебиття - це сигнал, який DataNode регулярно надсилає до NameNode, щоб показати свою присутність.

28) Розрізняти NAS та DAS у Hadoop

NAS	DAS
Ємність зберігання становить 10 ⁹ - 10 ¹² байт.	Ємність 10 ⁹ байт.
Вартість управління на ГБ є помірною.	Вартість управління на ГБ висока.
Передайте дані за допомогою Ethernet або TCP / IP.	Передайте дані за допомогою IDE / SCSI

29) Перелічіть важливі поля або мови, якими користується інженер даних

Ось декілька полів чи мов, які використовує інженер даних:

Ймовірність, а також лінійна алгебра
Машинне навчання
Аналіз тенденцій та регресія
Вулиця баз даних QL та SQL

30) Що таке великі дані?

Це велика кількість структурованих та неструктурованих даних, які неможливо легко обробити традиційними методами зберігання даних. Інженери даних використовують Hadoop для управління великими даними.

31) Що таке планування FIFO?

Це алгоритм планування роботи Hadoop. У цьому розкладі FIFO репортер вибирає завдання із черги робіт, найпершу найстарішу роботу.

32) Згадайте номери портів за замовчуванням, на яких відстежувач завдань, NameNode та відстежувач завдань працюють у Hadoop

Номери портів за замовчуванням, на яких відстежувач завдань, NameNode та відстежувач завдань працюють у Hadoop, такі:

Трекер завдань працює на порту 50060
NameNode працює на порту 50070
Job Tracker працює на порту 50030

33) Як вимкнути блоковий сканер на вузлі даних HDFS

Для того, щоб вимкнути блоковий сканер на вузлі даних HDFS, встановіть для dfs.datanode.scan.period.hours значення 0.

34) Як визначити відстань між двома вузлами в Hadoop?

Відстань дорівнює сумі відстані до найближчих вузлів. Метод getDistance () використовується для обчислення відстані між двома вузлами.

35) Навіщо використовувати товарне обладнання в Hadoop?

Товарне обладнання легко отримати і доступне. Це система, сумісна з Windows, MS-DOS або Linux.

36) Визначте коефіцієнт реплікації в HDFS

Коефіцієнт реплікації - це загальна кількість реплік файлу в системі.

37) Які дані зберігаються в NameNode?

Namenode зберігає метадані HDFS, наприклад інформацію про блоки та інформацію про простір імен.

38) Що ви маєте на увазі під обізнаністю в стійці?

У кластері Haddop Namenode використовує Datanode для поліпшення мережевого трафіку під час читання або запису будь-якого файлу, який знаходиться ближче до сусідньої стійки для запиту на читання або запис. Namenode підтримує ідентифікатор стійки кожного вузла даних для отримання інформації про стійку. Ця концепція називається обізнаністю в стійці в Hadoop.

39) Які функції виконують Secondary NameNode?

Нижче наведено функції Secondary NameNode:

FsImage, який зберігає копію файлу EditLog та FsImage.
Збій NameNode: Якщо NameNode аварійно завершує роботу, тоді FsImage вторинного NameNode можна використовувати для відтворення NameNode.
Контрольна точка: Він використовується Secondary NameNode для підтвердження того, що дані не пошкоджені у HDFS.
Оновлення: Він автоматично оновлює файли EditLog та FsImage. Це допомагає постійно оновлювати файл FsImage на Secondary NameNode.

40) Що відбувається, коли NameNode не працює, і користувач подає нове завдання?

NameNode є єдиною точкою відмови в Hadoop, тому користувач не може подати нове завдання, не може виконати. Якщо NameNode не працює, то завдання може провалитися, тому користувачеві потрібно дочекатися перезапуску NameNode перед запуском будь-якого завдання.

41) Які основні фази редуктора в Hadoop?

У Hadoop є три основні фази редуктора:

1. Перемішати: тут Редуктор копіює вихідні дані з Mapper.

2. Сортування: У сортуванні Hadoop сортує вхід до Редуктора, використовуючи ту саму клавішу.

3. Зменшити: На цьому етапі вихідні значення, пов'язані з ключем, зменшуються для консолідації даних у кінцевий результат.

42) Чому Hadoop використовує об’єкт Context?

Фреймворк Hadoop використовує об'єкт Context з класом Mapper для взаємодії з рештою системою. Контекстний об'єкт отримує деталі конфігурації системи та завдання у своєму конструкторі.

Ми використовуємо об’єкт Context для передачі інформації в методах setup (), cleanup () та map (). Цей об'єкт робить життєво важливу інформацію доступною під час операцій з картою.

43) Визначте комбінатор у Hadoop

Це необов’язковий крок між картою та зменшенням. Combiner бере вихідні дані функції Map, створює пари ключових значень і подає до Hadoop Reducer. Завдання комбайнера - узагальнити кінцевий результат з Карти в підсумкові записи за допомогою ідентичного ключа.

44) Який коефіцієнт реплікації за замовчуванням доступний у HDFS Що він вказує?

Коефіцієнт реплікації за замовчуванням у HDFS становить три. Коефіцієнт реплікації за замовчуванням вказує на те, що кожних даних буде три репліки.

45) Що ви маєте на увазі Місцезнаходження даних у Hadoop?

У системі великих даних розмір даних величезний, і тому не має сенсу переміщувати дані по мережі. Тепер Hadoop намагається наблизити обчислення до даних. Таким чином, дані залишаються локальними для збереженого місця.

46) Визначте балансира в HDFS

У HDFS балансир - це адміністратор, який використовується адміністративним персоналом для збалансування даних між вузлами даних і переміщує блоки з надмірно використаних на недостатньо використані вузли.

47) Поясніть безпечний режим у HDFS

Це режим лише для читання NameNode у кластері. Спочатку NameNode знаходиться у режимі Safemode. Це запобігає запису в файлову систему в Safemode. В цей час він збирає дані та статистику з усіх вузлів даних.

48) Яке значення розподіленого кешу в Apache Hadoop?

Hadoop має корисну функцію утиліти, так званий розподілений кеш, який покращує продуктивність завдань, кешуючи файли, що використовуються програмами. Додаток може вказати файл кешу за допомогою конфігурації JobConf.

Фреймворк Hadoop робить копію цих файлів на вузлах, на яких має бути виконане завдання. Це робиться перед початком виконання завдання. Розподілений кеш підтримує розповсюдження файлів лише для читання, а також файлів ZIP та JAR.

49) Що таке Metastore у вулику?

Він зберігає схему, а також розташування таблиці вуликів.

Таблиця вуликів визначає, відображення та метадані, які зберігаються у Metastore. Це може зберігатися в RDBMS, що підтримується JPOX.

50) Що означають під SerDe у вулику?

SerDe - це коротка назва серіалізатора або десериалізатора. У Hive SerDe дозволяє зчитувати дані з таблиці та записувати в певне поле у будь-якому форматі, який ви хочете.

51) Перелічіть компоненти, доступні в моделі даних Hive

У моделі даних Вулля є такі компоненти:

Столи
Перегородки
Відра

52) Поясніть використання Вулля в екосистемі Hadoop.

Hive надає інтерфейс для управління даними, що зберігаються в екосистемі Hadoop. Вулик використовується для картографування та роботи з таблицями HBase. Запити вуликів перетворюються на завдання MapReduce, щоб приховати складність, пов’язану зі створенням та запуском завдань MapReduce.

53) Перелік різних складних типів даних / збір, що підтримуються Hive

Hive підтримує такі складні типи даних:

Карта
Структура
Масив
Союз

54) Поясніть, як використовується файл .hiverc у вулику?

У Hive файл .hiverc - це файл ініціалізації. Цей файл спочатку завантажується, коли ми запускаємо інтерфейс командного рядка (CLI) для Hive. Ми можемо встановити початкові значення параметрів у файлі .hiverc.

55) Чи можна створити більше одних таблиць у вулику для одного файлу даних?

Так, ми можемо створити більше однієї схеми таблиці для файлу даних. Hive зберігає схему в Hive Metastore. На основі цієї схеми ми можемо отримувати різні результати з тих самих даних.

56) Поясніть різні реалізації SerDe, доступні в Hive

У Hive доступно багато реалізацій SerDe. Ви також можете написати власну реалізацію SerDe. Нижче наведено кілька відомих реалізацій SerDe:

OpenCSVSerde
RegexSerDe
РозмежованоJSONSerDe
ByteStreamTypedSerDe

57) Перелік функцій, що генерують таблиці, доступних у Hive

Далі наведено перелік функцій, що генерують таблиці:

Вибух (масив)
JSON_tuple ()
Стек ()
Вибухнути (карта)

58) Що таке перекошений стіл у вулику?

Коса таблиця - це таблиця, яка частіше містить значення стовпців. У Hive, коли ми вказуємо таблицю як SKEWED під час створення, перекошені значення записуються в окремі файли, а інші значення надходять в інший файл.

59) Перелічіть об’єкти, створені за допомогою оператора create у MySQL.

Об'єкти, створені за допомогою оператора create у MySQL, є такими:

База даних
Індекс
Таблиця
Користувач
Процедура
Тригер
Подія
Переглянути
Функція

60) Як побачити структуру бази даних у MySQL?

Для того, щоб побачити структуру бази даних у MySQL, ви можете використовувати

Команда DESCRIBE. Синтаксис цієї команди - DESCRIBE Назва таблиці ;.

61) Як шукати певний рядок у стовпці таблиці MySQL?

Використовуйте оператор регулярного виразу для пошуку рядка в стовпці MySQL. Тут ми також можемо визначити різні типи регулярних виразів та шукати використання регулярного виразу.

62) Поясніть, як аналітика даних та великі дані можуть збільшити дохід компанії?

Нижче наведено способи, як аналітика даних та великі дані можуть збільшити дохід компанії:

Ефективно використовуйте дані, щоб переконатися в зростанні бізнесу.
Збільшення вартості клієнта.
Переходячи до аналітичного для покращення прогнозів щодо рівня персоналу.
Скорочення виробничих витрат організацій.