Спосіб придумати data science-проєкт від дата-науковця
15.10.2020
Першим має йти не черговий новий інструмент, який було б цікаво десь застосувати, а цікава задача.
Недосвідчені дата-аналітики часто стикаються з тим, що не можуть придумати цікаві “сторонні” data science проєкти. Справа в тому, що вони роблять все навпаки, пише у своєму блозі Ділан Кастійо, фахівець з аналізу даних. Зазвичай, вказує він, вони спочатку знаходять рішення і вже потім шукають задачу, яку можна розв’язати із цим рішенням.
Така ситуація досить поширена серед тих, хто займається аналітикою даних, зазначає фахівець. Він описує типову “пастку”, у яку потрапляють його колеги:
- Ви дізнаєтеся про новий алгоритм машинного/глибинного навчання (наприклад, для аналітики Big Data) та із захопленням його вивчаєте;
- Ви починаєте шукати, де його можна використати;
- Знайти оригінальне застосування не виходить. Тож ви робите те ж саме, що й усі інші, або просто припиняєте працювати над проєктом.
Коли ви щось вивчаєте, важко дистанціюватися від контексту, в якому ви це робите, підкреслює Кастійо. Замість того, щоб шукати нові шляхи застосування, ми зазвичай намагаємося використати нові знання у схожому контексті, якщо не тому ж самому. Не дивно, що багато фахівців з data science зрештою беруться за щось банальне, на кшталт прогнозування того, хто вижив би на Титаніку, чи побудови розпізнавача цифр на основі бази даних MNIST, іронізує дата-аналітик.
Краще спрацьовує зворотній підхід — почати з проблеми чи застосунку, а вже потім шукати рішення, алгоритм, який працюватиме у цьому випадку. Або ж навіть почати з питання, яке вас дійсно цікавить. Таким чином, вважає Кастійо, зростають ваші шанси знайти проєкт, який би зацікавив не тільки вас, але й інших. Адже складно придумати таку проблему, яка б привернула лише вашу увагу.
Отже, як із цим впоратися? Фахівець пропонує дотримуватися такої простої схеми:
- Виберіть завдання. Придумайте задачу, яку ви могли б потенційно вирішити за допомогою дата-аналітики. Спробуйте знайти тему, яка б вас дійсно цікавила. Зверніться до своїх хобі, до того, про що вам подобається читати в соцмережах чи ЗМІ;
- Знайдіть дані. Подумайте, де знайти інформацію, за допомогою якої можна було б вирішити вашу задачу;
- За потреби скорегуйте завдання. Якщо дані не допомагають із вирішенням — подумайте над незначною модифікацією самої задачі;
- Виберіть алгоритм. Визначте, як ви будете вирішувати завдання;
- Якщо результат не задовольняє — почніть спочатку. Не виходить з кроками 3-4? Поверніться до кроку 1.