Три головні помилки тих, хто вивчає data science
18.09.2020
Подавайте аналіз даних як історію, ретельно вивчайте та очищуйте дані і звертайте увагу на візуалізацію — це зробить вас кращим спеціалістом.
Професійні шляхи в аналітиці даних можуть бути різними, однак початківці часто припускаються типових помилок. Програміст та фахівець з дата-аналітики Nischal M у своєму блозі на Towards Data Science ділиться власним досвідом і дає поради тим, хто хоче розвиватися у цій сфері.
Гарна візуалізація — це важливо!
Усі зусилля, вкладені в аналітику даних, не принесуть плодів без зрозумілої візуалізації, вважає фахівець. Хай вона буде не надто оригінальною, але продуманою та завершеною, радить він. Ось деякі пункти, на які варто звернути увагу:
- Не забувайте про змістовні підписи осей графіків та заголовки; лишати графіки з “х”, “y” та “df$variable” ‒ це як іти на модну вечірку у одязі для спортзалу: можна, але не варто;
- Графіки з усіма кольорами веселки лише розсіюють увагу; будьте обережними у виборі кольорової гами та використовуйте її так, щоб привернути увагу до певного аспекту;
- Виберіть правильний тип візуалізації ‒ ви маєте донести якусь ідею, а не просто показати структуру даних
Не робіть Power Point-презентацію ‒ розказуйте історію
Сторітелінг ‒ надзвичайно потужний інструмент для того, щоб донести ваше бачення даних. Аудиторія має зрозуміти, яку проблему ви намагалися вирішити, з чим були проблеми і якими даними підкріплені ваші рішення. Автор рекомендує використовувати таку структуру:
- Мета аналізу: чітко зазначте, чого ви намагаєтеся досягти і чому це важливо;
- Опис: коротке пояснення даних допоможе аудиторії зрозуміти складність завдання; для аналізу big data є сенс показати деякі підсумкові статистики;
- Аналіз, методи та результати: розкажіть, які інструменти дата-аналітики ви використали, як задіяли моделювання, підкріплюючи це візуалізаціями. Покажіть викиди, неконсистентність даних, пропущені значення ‒ і що ви з цим робили;
- Висновки: ще раз розкажіть про результати і поясніть їхню значущість; по суті, це резюме усієї презентації на 1-2 слайдах
Автор порівнює людину, яка робить презентацію, з вівчаром, який веде отару до кошари. Як жоден вівчар не хоче розгубити своїх овець, так і ви навряд чи хочете, щоб аудиторія “заблукала” ще до висновків. Слідкуйте, щоб такого не сталося!
Поспішаєте з моделюванням? Не жени коней, Остапе!
Користі з моделі буде рівно стільки, наскільки якісні дані, на яких вона базується, наголошує фахівець. Експлораторний аналіз не тільки дозволяє нам самим розібратися в даних, але й краще пояснити аудиторії, чоми ми приймаємо певні рішення. За словами автора, 70% часу фахівця з data science займає чистка даних та перевірка їх на консистентність. Він радить звернути увагу на кілька аспектів:
- Мультиколінеарність. Big data часто сповнені “шуму” та змінних, які вказують на одне і те ж саме. Їх можна легко виявити і прибрати, поглянувши на кореляційні матриці ‒ немає сенсу лишати набір змінних, які статистично тісно пов’язані між собою. Фахівець вважає, що такий крок ‒ це вже 80% роботи;
Дані зазвичай заплутані та “брудні”. Знайдіть та видаліть викиди і подумайте, що робити з пропущеними значенням. Реальні дані ніколи не будуть такими, як ви сподіваєтеся, і легко можуть спрямувати дата-аналітику в неправильне русло та привести до хибних висновків, застерігає фахівець.