Що таке ВЕЛИКІ ДАНІ? Вступ, типи, характеристики, приклад

Зміст:

Anonim

Перш ніж перейти до ознайомлення з великими даними, спершу вам слід це знати

Що таке дані?

Кількості, символи або символи, на яких операції виконуються комп’ютером, які можуть зберігатися та передаватися у вигляді електричних сигналів та реєструватися на магнітних, оптичних або механічних носіях запису.

Тепер давайте дізнаємось про введення великих даних

Що таке великі дані?

Великі дані - це колекція даних, яка має величезний обсяг, але з часом зростає в геометричній прогресії. Це дані настільки великого розміру та складності, що жоден із традиційних засобів управління даними не може їх зберігати чи ефективно обробляти. Великі дані - це також дані, але з величезним розміром.

У цьому підручнику ви дізнаєтесь,

  • Що таке дані?
  • Що таке великі дані?
  • Приклади великих даних
  • Типи великих даних
  • Характеристика великих даних
  • Переваги обробки великих даних

Приклади великих даних

Ось деякі приклади великих даних -

Нью - Йоркська фондова біржа генерує близько одного терабайта нових торгових даних в день.

Соц.медіа

Статистика показує, що 500 + терабайт нових даних потрапляють у бази даних сайту соціальних мереж Facebook щодня. Ці дані в основному генеруються з точки зору завантаження фото та відео, обміну повідомленнями, розміщення коментарів тощо.

Один движок Jet може генерувати 10 + терабайт даних за 30 хвилин польоту. Завдяки багатьом тисячам рейсів на день, генерація даних сягає багатьох петабайт.

Типи великих даних

Нижче наведено типи великих даних:

  1. Структурований
  2. Неструктурований
  3. Напівструктурований

Структурований

Будь-які дані, які можна зберігати, отримувати до них доступ та обробляти у вигляді фіксованого формату, називаються „структурованими” даними. Протягом певного періоду таланти в галузі інформатики досягли більших успіхів у розробці методів роботи з подібними даними (де формат заздалегідь добре відомий), а також отримуючи з них цінність. Однак сьогодні ми передбачаємо проблеми, коли розмір таких даних значно зростає, типові розміри знаходяться в шалі кількох зеттабайт.

Чи ти знаєш? 10 21 байт, рівний 1 зеттабайту або одному мільярду терабайт, утворює зеттабайт .

Переглядаючи ці цифри, можна легко зрозуміти, чому дана назва Big Data, і уявити собі проблеми, пов'язані з її зберіганням та обробкою.

Чи ти знаєш? Дані, що зберігаються в реляційній системі управління базами даних, є одним із прикладів „структурованих” даних.

Приклади структурованих даних

Таблиця "Співробітник" у базі даних є прикладом структурованих даних

Ідентифікатор працівника Ім'я працівника Стать Кафедра Зарплата_У_лаках
2365 Раджеш Кулкарні Самець Фінанси 650000
3398 Пратібха Джоші Самка Адміністратор 650000
7465 Шушил Рой Самець Адміністратор 500000
7500 Шубходжіт Дас Самець Фінанси 500000
7699 Прия Сане Самка Фінанси 550000

Неструктурований

Будь-які дані з невідомою формою або структурою класифікуються як неструктуровані дані. Окрім того, що розмір величезний, неструктуровані дані ставлять перед собою численні труднощі з точки зору їх обробки для виведення цінності з них. Типовим прикладом неструктурованих даних є неоднорідне джерело даних, що містить комбінацію простих текстових файлів, зображень, відео тощо. На сьогоднішній день у організації є безліч даних, але, на жаль, вони не знають, як отримати з них цінність, оскільки ці дані у вихідному або неструктурованому форматі.

Приклади неструктурованих даних

Результат, який повертає "Пошук Google"

Напівструктурований

Напівструктуровані дані можуть містити обидві форми даних. Ми можемо бачити напівструктуровані дані як структуровані за формою, але насправді вони не визначені, наприклад, визначенням таблиці в реляційних СУБД. Прикладом напівструктурованих даних є дані, представлені у файлі XML.

Приклади напівструктурованих даних

Особисті дані, що зберігаються у файлі XML-

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Зростання даних протягом багатьох років

Зверніть увагу, що неструктуровані дані веб-додатків складаються з файлів журналів, файлів історії транзакцій тощо. Системи OLTP побудовані для роботи зі структурованими даними, дані яких зберігаються у відносинах (таблицях).

Характеристика великих даних

Великі дані можна описати такими характеристиками:

  • Гучність
  • Різноманітність
  • Швидкість
  • Варіативність

(i) Обсяг - сама назва Big Data пов'язана з величезним розміром. Розмір даних відіграє дуже важливу роль у визначенні цінності даних. Також те, чи можна конкретні дані насправді розглядати як великі дані чи ні, залежить від обсягу даних. Отже, "обсяг" - це одна з характеристик, яку потрібно враховувати при роботі з великими даними.

(ii) Різноманітність - наступним аспектом великих даних є їх різноманітність .

Різноманітність відноситься до різнорідних джерел та природи даних, як структурованих, так і неструктурованих. Раніше електронні таблиці та бази даних були єдиними джерелами даних, що розглядалися більшістю програм. На сьогодні дані у вигляді електронних листів, фотографій, відео, пристроїв контролю, PDF-файли, аудіо тощо також розглядаються в додатках для аналізу. Ця різноманітність неструктурованих даних створює певні проблеми щодо зберігання, видобутку та аналізу даних.

(iii) Швидкість - Термін "швидкість" відноситься до швидкості генерації даних. Наскільки швидко генеруються та обробляються дані для задоволення потреб, визначається реальний потенціал даних.

Big Data Velocity має справу зі швидкістю надходження даних з таких джерел, як бізнес-процеси, журнали програм, мережі та сайти соціальних медіа, датчики, мобільні пристрої тощо. Потік даних є масовим і постійним.

(iv) Варіабельність - Це стосується невідповідності, яка часом може виявлятися даними, що перешкоджає процесу ефективної обробки та управління даними.

Переваги обробки великих даних

Можливість обробки великих даних приносить багато переваг, таких як-

    • Підприємства можуть використовувати зовнішній інтелект, приймаючи рішення

Доступ до соціальних даних із пошукових систем та таких сайтів, як facebook, twitter, дозволяє організаціям чітко налаштовувати свої бізнес-стратегії.

    • Покращено обслуговування клієнтів

Традиційні системи зворотного зв'язку із клієнтами замінюються новими системами, розробленими з використанням технологій Big Data. У цих нових системах для читання та оцінки реакцій споживачів використовуються технології обробки великих даних та природних мов.

    • Рання ідентифікація ризику для товару / послуги, якщо такий є
    • Краща операційна ефективність

Технології великих даних можна використовувати для створення проміжної зони або зони посадки для нових даних перед тим, як визначити, які дані слід перемістити до сховища даних. Крім того, така інтеграція технологій великих даних та сховища даних допомагає організації розвантажувати дані, до яких рідко отримують доступ.

Резюме

  • Визначення великих даних: Великі дані визначаються як дані величезного розміру. Bigdata - це термін, що використовується для опису колекції даних, що має величезні розміри, але з часом зростає в геометричній прогресії.
  • Приклади аналізу великих даних включають фондові біржі, сайти соціальних мереж, реактивні двигуни тощо.
  • Великі дані можуть бути 1) структурованими, 2) неструктурованими, 3) напівструктурованими
  • Обсяг, різноманітність, швидкість та мінливість - це кілька характеристик великих даних
  • Поліпшення обслуговування клієнтів, краща операційна ефективність, кращий процес прийняття рішень - кілька переваг Bigdata