decor
decor

Три головні помилки тих, хто вивчає data science

< Назад
Три головні помилки тих, хто вивчає data science

18.09.2020

Подавайте аналіз даних як історію, ретельно вивчайте та очищуйте дані і звертайте увагу на візуалізацію — це зробить вас кращим спеціалістом.

Професійні шляхи в аналітиці даних можуть бути різними, однак початківці часто припускаються типових помилок. Програміст та фахівець з дата-аналітики Nischal M у своєму блозі на Towards Data Science ділиться власним досвідом і дає поради тим, хто хоче розвиватися у цій сфері.

Гарна візуалізація — це важливо!

Усі зусилля, вкладені в аналітику даних, не принесуть плодів без зрозумілої візуалізації, вважає фахівець. Хай вона буде не надто оригінальною, але продуманою та завершеною, радить він. Ось деякі пункти, на які варто звернути увагу:

  1. Не забувайте про змістовні підписи осей графіків та заголовки; лишати графіки з “х”, “y” та “df$variable” ‒ це як іти на модну вечірку у одязі для спортзалу: можна, але не варто;
  2. Графіки з усіма кольорами веселки лише розсіюють увагу; будьте обережними у виборі кольорової гами та використовуйте її так, щоб привернути увагу до певного аспекту;
  3. Виберіть правильний тип візуалізації ‒ ви маєте донести якусь ідею, а не просто показати структуру даних

Не робіть Power Point-презентацію розказуйте історію

Сторітелінг ‒ надзвичайно потужний інструмент для того, щоб донести ваше бачення даних. Аудиторія має зрозуміти, яку проблему ви намагалися вирішити, з чим були проблеми і якими даними підкріплені ваші рішення. Автор рекомендує використовувати таку структуру:

  • Мета аналізу: чітко зазначте, чого ви намагаєтеся досягти і чому це важливо;
  • Опис: коротке пояснення даних допоможе аудиторії зрозуміти складність завдання; для аналізу big data є сенс показати деякі підсумкові статистики;
  • Аналіз, методи та результати: розкажіть, які інструменти дата-аналітики ви використали, як задіяли моделювання, підкріплюючи це візуалізаціями. Покажіть викиди, неконсистентність даних, пропущені значення ‒ і що ви з цим робили;
  • Висновки: ще раз розкажіть про результати і поясніть їхню значущість; по суті, це резюме усієї презентації на 1-2 слайдах

Автор порівнює людину, яка робить презентацію, з вівчаром, який веде отару до кошари. Як жоден вівчар не хоче розгубити своїх овець, так і ви навряд чи хочете, щоб аудиторія “заблукала” ще до висновків. Слідкуйте, щоб такого не сталося!

Поспішаєте з моделюванням? Не жени коней, Остапе!

Користі з моделі буде рівно стільки, наскільки якісні дані, на яких вона базується, наголошує фахівець. Експлораторний аналіз не тільки дозволяє нам самим розібратися в даних, але й краще пояснити аудиторії, чоми ми приймаємо певні рішення. За словами автора, 70% часу фахівця з data science займає чистка даних та перевірка їх на консистентність. Він радить звернути увагу на кілька аспектів:

  • Мультиколінеарність. Big data часто сповнені “шуму” та змінних, які вказують на одне і те ж саме. Їх можна легко виявити і прибрати, поглянувши на кореляційні матриці ‒ немає сенсу лишати набір змінних, які статистично тісно пов’язані між собою. Фахівець вважає, що такий крок ‒ це вже 80% роботи;

Дані зазвичай заплутані та “брудні”. Знайдіть та видаліть викиди і подумайте, що робити з пропущеними значенням. Реальні дані ніколи не будуть такими, як ви сподіваєтеся, і легко можуть спрямувати дата-аналітику в неправильне русло та привести до хибних висновків, застерігає фахівець.

< Назад