decor
decor

Гарвардський професор: Big Data може бути на 99,98% менше, ніж здається

< Назад
Гарвардський професор: Big Data може бути на 99,98% менше, ніж здається

17.03.2021

Гарвардський професор статистики попередив про невипадкові джерела даних.

Великі надії компаній щодо великих даних можуть призвести до помилкових висновків через “парадокс Big Data”. Професор з Гарварда пояснив, чому дані 2,3 млн осіб можуть виявитися не більш корисними, аніж інформація про 400 респондентів.

Видається очевидним, що інформація 2,3 млн людей буде більш корисною для аналітики великих даних, ніж думки 400 випадково вибраних осіб. Але в дійсності все залежить від того, як був зібраний сет big data. Надія на те, що велика кількість даних компенсує їхню низьку якість – це класична помилка у сфері Big Data, зазначає Сяо-Лі Мен, професор статистики в Гарварді, який був ініціатором і головним редактором дослідження Harvard Data Science Review, опублікованому два роки тому.

Парадокс Big Data

У абсолютно випадковій вибірці не існує взаємозв’язку між думкою когось та їхнім шансом бути включеним до набору даних для аналітики. Якщо існує навіть кореляція 0,5%, тобто невеликий шанс упередженого відбору, невипадкова вибірка у 2,3 мільйона не буде нічим кращою, ніж випадкова вибірка в 400, переконаний Мен.

Таким чином, це зменшення ефективного обсягу вибірки на 99,98%.

“Це не просто теорія: статистики підрахували, що існувала кореляція 0,5%, що викривила попередні опитування на президентських виборах в США 2016 року. Мабуть, причина в тому, що прихильники Дональда Трампа були менш схильні говорити про свої переваги соціологам. Ось чому так багато рейтингів виявилися нерелевантними, коли Трамп переміг. Опитування 2020 року зазнали подібних проблем”, – пише оглядач Bloomberg.

“Не беручи до уваги якість даних, висновки про населення на основі аналітики великих даних підпадають під парадокс big data: чим більше даних, тим впевненіше ми обдурюємо себе”, – написав Мен у статті “Аннали прикладної статистики” у 2018 році. Він додав: “Тому, по суті, це видача бажаного за дійсне – покладання на “великість” великих даних, щоб захиститись від сумнівної якості, особливо для великих груп населення”.

Мен порівняв аналіз даних із тестуванням солоності великої каструлі супу. Якщо суп добре розмішати, вам знадобиться лише дрібка – менше чайної ложки – щоб визначити, наскільки він солоний. З точки зору даних, ви берете випадкову вибірку супу. Якщо суп погано розмішати, ви можете випити літр – і все ще не визначити його середньої солоності. Чому? Частина, яку ви не скуштували, може відрізнятися від тієї, яку ви спробували.

Упередженість вибору

Мен не перший, хто підкреслює ризик упередженості відбору. Його внесок полягає в його кількісному визначенні. Гарвардський вчений створив так званий “індекс дефекту даних” і розробив просту за стандартами математичної статистики формулу. У ній йдеться, що відносне упередження пропорційне кореляції дефекту даних, помноженому на квадратний корінь розміру сукупності. Тож, чим більша кількість досліджуваного населення – тобто, тим більша наша “каструля супу” – тим більша потенційна проблема. (Це детально пояснено тут).

Наприклад, в одному з досліджень з використанням аналітики великих даних – Google Flu Trends – пошуковик спробував спрогнозувати спалахи грипу, проаналізувавши мільйони пошукових термінів, щоб знайти ті, хто найбільш корелює з грипом. 

Утім, він пропустив несезонний спалах у 2009 році, а потім передав куті меду із прогнозами грипу у лютому 2013 року. Ретроспективне дослідження, опубліковане в журналі Science у 2014-му, пояснило помилки як “сміття великих даних”, а саме як “часто неявні припущення, що великі дані є заміною, а не доповненням до традиційного збору та аналізу даних”.

< Назад