Нижче наводяться найчастіші запитання на співбесіді як для досвідчених фахівців, так і для досвідчених вчених з питань даних.
1. Що таке наука про дані?
Data Science - це комбінація алгоритмів, інструментів та техніки машинного навчання, яка допомагає знайти загальні приховані закономірності з поданих вихідних даних.
2. Що таке логістична регресія в Data Science?
Логістична регресія також називається моделлю logit. Це метод прогнозування двійкового результату на основі лінійної комбінації змінних-предикторів.
3. Назвіть три типи упереджень, які можуть виникнути під час вибірки
У процесі вибірки існує три типи упереджень, а саме:
- Упередження відбору
- Під ухилом покриття
- Упередження щодо виживання
4. Обговоріть алгоритм дерева рішень
Дерево рішень - це популярний керований алгоритм машинного навчання. В основному він використовується для регресії та класифікації. Це дозволяє розбивати набір даних на менші підмножини. Дерево рішень може обробляти як категоріальні, так і числові дані.
5. Що таке пріоритетна ймовірність та ймовірність?
Пріоритетна ймовірність - це частка залежної змінної у наборі даних, тоді як ймовірність - це ймовірність класифікації даного спостережуваного за наявності якоїсь іншої змінної.
6. Поясніть системи, що рекомендують?
Це підклас методів фільтрації інформації. Це допомагає вам передбачити уподобання або рейтинги, які користувачі можуть надати товару.
7. Назвіть три недоліки використання лінійної моделі
Три недоліки лінійної моделі:
- Припущення про лінійність помилок.
- Ви не можете використовувати цю модель для двійкових чи підрахунків результатів
- Є багато проблем із переобладнанням, які він не може вирішити
8. Навіщо потрібно проводити передискретизацію?
Передискретизація проводиться в наведених нижче випадках:
- Оцінка точності вибіркової статистики шляхом випадкового малювання із заміною з набору точок даних або використання як підмножин доступних даних
- Підміна міток на точках даних при виконанні необхідних тестів
- Перевірка моделей за допомогою випадкових підмножин
9. Перелічіть бібліотеки на Python, що використовуються для аналізу даних та наукових обчислень.
- SciPy
- Панди
- Матплотліб
- NumPy
- SciKit
- Морський народжений
10. Що таке аналіз потужності?
Аналіз потужності є невід'ємною частиною експериментальної конструкції. Це допоможе вам визначити обсяг вибірки, необхідний для з’ясування ефекту даного обсягу від причини з конкретним рівнем впевненості. Це також дозволяє розгорнути певну ймовірність у обмеженні обсягу вибірки.
11. Поясніть спільну фільтрацію
Спільна фільтрація, що використовується для пошуку правильних шаблонів за допомогою спільних точок зору, кількох джерел даних та різних агентів.
12. Що таке упередженість?
Упередженість - це помилка, введена у вашу модель через надто спрощення алгоритму машинного навчання. "Це може призвести до недооснащення.
13. Обговорити „наївне” в алгоритмі наївного Байєса?
Модель наївного байєсівського алгоритму заснована на теорії Байєса. Він описує ймовірність події. Він базується на попередньому знанні умов, які можуть бути пов’язані з цією конкретною подією.
14. Що таке лінійна регресія?
Лінійна регресія - це метод статистичного програмування, де оцінка змінної "A" прогнозується з оцінки другої змінної "B". B позначається як предикторна змінна, а A як змінна критерію.
15. Вкажіть різницю між очікуваною величиною та середньою величиною
Вони не відрізняються великою кількістю, але обидва ці терміни використовуються в різному контексті. Середнє значення зазвичай називають, коли ви обговорюєте розподіл ймовірностей, тоді як очікуване значення - у контексті випадкової величини.
16. Яка мета проведення А / В тестування?
Тестування АВ, що використовується для проведення випадкових експериментів з двома змінними, А та В. Метою цього методу тестування є виявлення змін на веб-сторінці для максимізації або збільшення результату стратегії.
17. Що таке ансамблеве навчання?
Ансамбль - це метод поєднання різноманітного набору учнів, щоб імпровізувати щодо стійкості та прогнозованої сили моделі. Два типи методів навчання в Ансамблі:
Сумка
Метод мішка допомагає вам застосувати аналогічних учнів на невеликих вибірках. Це допомагає вам робити ближчі прогнози.
Підсилення
Посилення - це ітераційний метод, який дозволяє регулювати вагу спостереження залежно від останньої класифікації. Підсилення зменшує помилку упередженості та допомагає будувати потужні прогнозні моделі.
18. Поясніть власне значення та власний вектор
Власні вектори призначені для розуміння лінійних перетворень. Вчений повинен обчислити власні вектори для матриці коваріації або кореляції. Власні значення - це напрямки за допомогою конкретних актів лінійного перетворення шляхом стискання, гортання або розтягування.
19. Визначте термін перехресна перевірка
Перехресна перевірка - це метод перевірки для оцінки того, як узагальнюватимуться результати статистичного аналізу для незалежного набору даних. Цей метод застосовується у фоновому режимі, де прогнозується мета, і потрібно оцінити, наскільки точно буде виконана модель.
20. Поясніть кроки для проекту аналізу даних
Нижче наведено важливі кроки, задіяні в аналітичному проекті:
- Зрозумійте ділову проблему
- Дослідіть дані та уважно їх вивчіть.
- Підготуйте дані до моделювання шляхом пошуку відсутніх значень та перетворення змінних.
- Почніть запускати модель і проаналізуйте результат великих даних.
- Перевірте модель за допомогою нового набору даних.
- Впроваджуйте модель і відстежуйте результат, щоб проаналізувати результативність моделі за певний період.
21. Обговоріть штучні нейронні мережі
Штучні нейронні мережі (ANN) - це спеціальний набір алгоритмів, який зробив революцію в машинному навчанні. Це допоможе вам адаптуватися відповідно до зміни вводу. Тож мережа дає найкращий можливий результат, не переробляючи критерії виводу.
22. Що таке розмноження спини?
Повторне розмноження - це суть тренування нейронних мереж. Це метод налаштування ваг нейронної мережі залежить від рівня помилок, отриманих у попередню епоху. Правильна настройка допомагає зменшити частоту помилок і зробити модель надійною, збільшивши її узагальнення.
23. Що таке випадковий ліс?
Випадковий ліс - це метод машинного навчання, який допомагає виконувати всі типи завдань регресії та класифікації. Він також використовується для обробки відсутніх значень і значень, що не відповідають вимогам.
24. У чому важливість упередженості відбору?
Похибка відбору виникає тоді, коли під час відбору окремих людей чи груп чи даних, що підлягають аналізу, не досягнуто конкретної рандомізації. Це свідчить про те, що дана вибірка не точно відображає сукупність, яку планувалося проаналізувати.
25. Що таке метод кластеризації K-засобів?
Кластеризація K-засобів є важливим методом навчання без нагляду. Це техніка класифікації даних за допомогою певного набору кластерів, яка називається K кластерами. Він розгортається для групування, щоб з’ясувати схожість даних.
26. Поясніть різницю між Data Science та Data Analytics
Вчені-дані повинні нарізати дані, щоб отримати цінну інформацію, яку аналітик даних може застосувати до реальних бізнес-сценаріїв. Основна відмінність між ними полягає в тому, що науковці з даних мають більше технічних знань, ніж бізнес-аналітик. Більше того, їм не потрібно розуміння бізнесу, необхідного для візуалізації даних.
27. Поясніть значення p?
Коли ви проводите перевірку гіпотез у статистиці, значення р дозволяє визначити силу ваших результатів. Це числове число від 0 до 1. На основі значення воно допоможе вам позначити силу конкретного результату.
28. Дайте визначення терміну глибоке навчання
Глибоке навчання - це підвид машинного навчання. Це стосується алгоритмів, натхненних структурою, яка називається штучними нейронними мережами (ANN).
29. Поясніть метод збору та аналізу даних для використання соціальних мереж для прогнозування погодних умов.
Ви можете збирати дані соціальних мереж, використовуючи Facebook, Twitter, API Instagram. Наприклад, для твітера ми можемо побудувати функцію з кожного твіту, наприклад, дату, ретвіт, список послідовників тощо. Тоді ви можете використовувати багатовимірну модель часових рядів для прогнозування погодних умов.
30. Коли потрібно оновлювати алгоритм у науці даних?
Вам потрібно оновити алгоритм у такій ситуації:
- Ви хочете, щоб ваша модель даних розвивалася як потоки даних із використанням інфраструктури
- Основне джерело даних змінюється
Якщо це нестаціонарність
31. Що таке нормальний розподіл
Нормальний розподіл - це сукупність безперервної змінної, розподіленої по нормальній кривій або у формі кривої дзвона. Ви можете розглядати це як безперервний розподіл ймовірностей, який корисний у статистиці. Корисно аналізувати змінні та їх взаємозв'язки, коли ми використовуємо криву нормального розподілу.
32. Яка мова найкраща для аналізу тексту? R чи Python?
Python більше підходить для аналізу тексту, оскільки він складається з багатої бібліотеки, відомої як панди. Це дозволяє використовувати високоякісні засоби аналізу даних та структури даних, тоді як R не пропонує цієї функції.
33. Поясніть переваги використання статистики вченими з даних
Статистика допомагає досліднику даних краще зрозуміти очікування споживача. Використовуючи статистичний метод Вчені з даних можуть отримати знання щодо інтересів споживачів, поведінки, залучення, утримання тощо. Це також допомагає вам будувати потужні моделі даних для перевірки певних висновків та прогнозів.
34. Назвіть різні типи Рамок глибокого навчання
- Піторх
- Когнітивний інструментарій Microsoft
- TensorFlow
- Кава
- Ланцюжок
- Керас
35. Поясніть автокодер
Автокодери - це навчальні мережі. Це допоможе вам перетворити входи у виходи з меншою кількістю помилок. Це означає, що ви отримаєте максимально наближений вихід.
36. Дайте визначення машини Больцмана
Машини Больцмана - це простий алгоритм навчання. Це допоможе вам виявити ті особливості, які представляють складні закономірності у навчальних даних. Цей алгоритм дозволяє оптимізувати ваги та кількість для даної задачі.
37. Поясніть, чому очищення даних є надзвичайно важливим і який метод ви використовуєте для підтримання чистоти даних
Брудні дані часто призводять до неправильних даних всередині, що може зашкодити перспективі будь-якої організації. Наприклад, якщо ви хочете провести цілеспрямовану маркетингову кампанію. Однак наші дані неправильно говорять про те, що конкретний товар буде затребуваний у вашої цільової аудиторії; кампанія провалиться.
38. Що таке нерівний розподіл та рівномірний розподіл?
Косий розподіл відбувається, якщо дані розподіляються на будь-якій стороні ділянки, тоді як рівномірний розподіл визначається, коли розповсюдження даних дорівнює в діапазоні.
39. Коли недофіксування відбувається в статичній моделі?
Недоопрацювання відбувається, коли статистична модель або алгоритм машинного навчання не здатні вловити основну тенденцію даних.
40. Що таке навчання на підкріплення?
Підкріплення навчання - це механізм навчання про те, як зіставити ситуації з діями. Кінцевий результат повинен допомогти вам збільшити двійковий сигнал винагороди. У цьому методі учню не повідомляють, яку дію вжити, але натомість він повинен виявити, яка дія пропонує максимальну винагороду. Як цей метод заснований на механізмі винагороди / штрафу.
41. Назвіть загальновживані алгоритми.
Чотири найпоширеніші алгоритми вченого з питань даних:
- Лінійна регресія
- Логістична регресія
- Випадковий ліс
- KNN
42. Що таке точність?
Точність є найбільш часто використовуваною метрикою похибок російського механізму класифікації. Його діапазон становить від 0 до 1, де 1 означає 100%
43. Що таке одновимірний аналіз?
Аналіз, який одночасно застосовується до жодного атрибута, відомий як однофакторний аналіз. Boxplot широко використовується, одновимірна модель.
44. Як ви долаєте проблеми зі своїми висновками?
Для того, щоб подолати виклики, які я знайшов, потрібно заохотити дискусію, продемонструвати лідерство та поважати різні варіанти.
45. Поясніть техніку кластерної вибірки в науці про дані
Кластерний метод вибірки використовується, коли складно вивчити розподіл цільової сукупності, і неможливо застосувати просту випадкову вибірку.
46. Вкажіть різницю між набором перевірки та набором випробувань
Набір перевірки в основному розглядається як частина навчального набору, оскільки він використовується для вибору параметрів, що допомагає уникнути переобладнання побудованої моделі.
Тоді як набір тестів використовується для тестування або оцінки ефективності навченої моделі машинного навчання.
47. Поясніть термін Біноміальна формула ймовірності?
"Біноміальний розподіл містить ймовірності будь-якого можливого успіху в N випробуваннях для незалежних подій, які мають ймовірність π відбутися".
48. Що таке відкликання?
Відкликання - це відношення справжньої позитивної ставки до фактичної позитивної ставки. Він коливається від 0 до 1.
49. Обговоріть нормальний розподіл
Нормальний розподіл, рівномірно розподілений як такий, середнє, медіана та мода рівні.
50. Як працюючи над набором даних, як можна вибрати важливі змінні? Поясніть
Ви можете використовувати наступні методи вибору змінних:
- Виберіть корельовані змінні перед вибором важливих змінних
- Використовуйте лінійну регресію та виберіть змінні, які залежать від значень p.
- Використовуйте Вибір назад, Вперед і Покроковий вибір
- Використовуйте Xgboost, Random Forest та побудуйте діаграму змінної важливості.
- Виміряйте приріст інформації для даного набору функцій і відповідно виберіть найкращі n функцій.
51. Чи можна виявити кореляцію між неперервною та категоріальною змінною?
Так, ми можемо використовувати аналіз методу коваріації, щоб зафіксувати зв'язок між безперервними та категоріальними змінними.
52. Якщо трактування категоріальної змінної як неперервної змінної призведе до кращої моделі прогнозування?
Так, категоріальне значення слід розглядати як безперервну змінну лише тоді, коли змінна має порядковий характер. Тож це краща модель прогнозування.