Як розвиваються великі дані? Думки експертів
20.08.2021
Наразі головна проблема Big Data полягає в тому, щоб донести потрібну інформацію до потрібних людей у потрібний час, не дивлячись на те, що кількість джерел та способів використання інформації постійно ростуть.
У 2013 році Джудіт Гурвіц та інші експерти ринку проголосили початок “ери Великих Даних”. Вони вважають, що “великі дані дозволяють організаціям зберігати, управляти та маніпулювати величезними обсягами даних з потрібною швидкістю і в потрібний час, щоб отримати потрібні відомості”.
Фахівці заявляють, що Big Data — це не єдина технологія, а гетерогенний набір технологій управління даними, що має свої корені та кілька попередніх технологічних перетворень.
Питання полягає в наступному: де сьогодні зберігати великі дані?
Сховища даних, Data Lakes, Data Fabric
Для зберігання великих даних з’явилися такі системи зберігання та управління, як сховище даних, Data Lake (“озеро даних”) і Data Fabric (“фабрика або матриця даних”).
“Організаціям знадобляться в тій чи іншій формі всі три ці системи”, — зазначає колишній CIO Тім МакБрін. “Але Data Fabric буде необхідна для інтеграції, управління та контролю всіх даних на підприємстві на рівні рішень”, – переконаний він.
“У більшості випадків централізувати дані просто неможливо”, — додає CIO Керрі Шумейкер. “Прототипом аналізу є використання сервісів для доступу до розрізнених джерел даних, а потім, якщо він виявляється плідним і диктується потребами бізнесу, здійснюється централізація”.
Централізація стратегії роботи з великими даними навколо однієї платформи
Експерти використовують подвійні стратегії, але дотримуються єдиної платформи. МакБрін каже, що йому подобається мати дві стратегії. “Одна стратегія призначена для виробництва, а інша — для аналітики великих даних. Кожна з них має свою основну платформу-концентратор і підтримку декількох сховищ даних”.
Шумейкер погоджується з ним: “Хіба численні сховища даних часто включають кілька електронних таблиць?”.
Таким чином, структура даних — це концепція управління даними для досягнення гнучких і доповнених конвеєрів інтеграції даних, сервісів і семантики в підтримку різних операційних і аналітичних сценаріїв використання, які надаються в рамках численних розгортань.
Забезпечення дотримання правил управління даними та конфіденційності даних
Щоб ефективно управляти даними, компаніям треба мати чітке уявлення, які дані вони мають у своєму розпорядженні. Керівники відіграють важливу роль. “Важливо визначити стюардів – тих, хто курируватиме процес, – заздалегідь і знати, як перевіряти їх упродовж всього шляху”, — стверджує СIO Деб Гілдерслів.
Стюарди відіграють важливу роль в управлінні великими даними. Тож не дивно, що МакБрін каже, що важливо визначити тих “стюардів, чия вся робота полягає у доступі та управлінні виправленнями до інформації з першоджерела. Вони виходять із бізнес-команд, і KPI є на місці. Ми переглядаємо їх щомісяця і за необхідності коригуємо”.
Як хмарні технології впливають на стратегію роботи з великими даними?
“Хмара стає ще однією формою обчислень і зберігання даних, а не окремим середовищем”, — наполягає аналітик даних Кірш. “Управління хмарою і її доступність дуже важливі. У деяких випадках немає причин переносити застосунки в хмару. Можливість миттєво проводити експерименти з даними в хмарі має величезне значення”.
Гілдерслів згоден з цим: “Хмара дозволяє організаціям пробувати нові речі, а також додавати та прибирати обчислювальні потужності за потреби. І все це без необхідності чекати, поки буде виконана фізична робота”.
Як розвиваються процеси обробки даних?
Процеси потрібно будувати на основі чітко визначених термінів. На думку Гілдерсліва, “початок роботи в транзакційних системах має вирішальне значення. Якщо дані спочатку неправильні, багато часу йде на їхнє очищення і поліпшення”.
З цієї причини Кірш вважає, що прийшов час “змінити процеси обробки даних, запровадивши такі процеси, як DataOps”. Вони стануть важливими для організацій, керованих даними. Проте такі зміни будуть поступовими. Підприємства все ще відчувають труднощі з DevOps. Грамотність в області даних також має вирішальне значення для досягнення цілей”.
Хоча компанії, що орієнтуються на аналітику великих даних, в довгостроковій перспективі виграють, на них чекає ще досить багато роботи, зазначають фахівці.