decor
decor

Шлях дата-науковця: із Івана в пана

< Назад
Шлях дата-науковця: із Івана в пана

20.11.2020

Почніть з отримання базових знань з програмування, статистики, математики, машинного навчання, практикуйтеся та постійно слідкуйте за новими алгоритмами та технологіями. 

Із кожним роком компанії накопичують дедалі більше інформації, а отже актуальність data science для бізнес-аналізу лише зростає. Ця сфера — на перетині математики, статистики та комп’ютерних наук — покликана знаходити корисні інсайти в даних. Якщо вам цікаво було б спробувати себе в ролі дата-аналітика, то, певно, ви вже задумувалися над питанням, як же увійти до цієї сфери та досягти в ній успіху. 

Ось поради щодо цього із блогу дата-науковця Шуі Янга.

Програмування

Знання основ програмування необхідне для аналітики даних. В data science найчастіше використовують мови R та Python. Для початку вистачить базових умінь: створити функцію, написати цикл, побудувати графік тощо. Корисним буде познайомитися з git, системою для керування версіями файлів та спільної роботи з ними, яку часто використовують в data science-проєктах. Для цього варто створити профіль на GitHub або Bitbucket.

Маніпуляції з даними

Обробка масиву даних, зокрема його очищення — одне з основних завдань дата-аналітика. Для цього знадобляться такі програмні бібліотеки як pandas (для Python) чи dplyr (для R), або ж Dask та data.table. У багатьох ситуаціях аналітику дата-науковцю потрібно писати SQL-запити, щоб отримати доступ до даних — тому буде не зайвим познайомитися з основними з них, радить експерт.

Алгоритми машинного навчання

Якщо ви вже володієте R чи Python — почніть знайомитися з найпопулярнішими алгоритмами машинного навчання. У відкритому доступі є багато курсів та книжок на цю тему. Навчіться працювати з такими популярними бібліотеками як caret чи scikit-learn, тестуючи свої алгоритми на публічно доступних датасетах з UCI Datasets, Kaggle Dataset або Google Dataset Search.

Підтягніть теорію

Дата-науковцю варто розбиратися в основних математичних концептах (лінійна алгебра, аналіз функцій дійсної змінної, чисельні методи), статистиці (описова статистика, статистичне висновування, Баєсова статистика) та комп’ютерних науках (часова та ємнісна складність алгоритму, структура даних, алгоритми сортування та пошуку, алгоритми на графах, розробка алгоритмів тощо).

Глибинне навчання

Розберіться, що таке штучні нейронні мережі та як вони працюють. TensorFlow та PyTorch — найбільш популярні середовища для побудови таких мереж. Янг радить початківцям спробувати Google Colab, щоб отримати більше обчислювальних можливостей для експериментів з прототипами.

Візуалізація даних

Фахівець з data science має донести інсайти до ширшої аудиторії за допомогою графіків та діаграм або ж відобразити їх на дашбордах. Серед користувачів Python популярними є такі бібліотеки для візуалізації даних як matplotlib, plotly, seaborn та streamlit; для R доступні ggplot2 та Shiny Dashboard. Вибір дуже великий, тому дата-науковець радить сфокусуватися лише на кількох інструментах.

Змагання на Kaggle

Не бійтеся приймати участь у хакатонах, які організовує ця популярна платформа для фахівців з data science. Спілкуючись з іншими дата-науковцями ви дізнаєтеся багато нового про інструменти, методології, алгоритми, зазначає Янг.

Big Data

Експерт застерігає, що звичайні інструменти дата-аналітики можуть не впоратися з аналізом великих даних. На його думку, хоча це вже частково сфера діяльності дата-інженерів, фахівцям з data-science теж не завадить знайомство з Kafka, Spark, Scala та Neo4j.

Хмарні сервіси

Останніми роками зростає тренд на використання онлайн-платформ, які пропонують Google, Microsoft та інші компанії. Такі платформи дають доступ до середовищ розробки та натренованих моделей. Користування подібними сервісами може підвищити продуктивність дата-науковця та скоротити час на реалізацію проєкту, підкреслює Янг.

Практика

Досвід роботи є надзвичайно важливими для фахівця з Data science. Проєкти мають певні часові рамки, в які, зазвичай, не вміщається пошук оптимального варіанту їхньої реалізації. Із досвідом ви навчитеся відразу відкидати неоптимальні стратегії, запевняє експерт. Крім того, важливо навчитися співпрацювати з іншими командами: дата-інженерами, розробниками дашбордів, менеджерами тощо.

Спеціалізація

Для досягнення успіху дата-науковцю важливо визначитися з фокусом. Ви можете стати спеціалістом з обробки природної мови, комп’ютерного бачення, побудови нейронних мереж, візуалізації даних тощо. Крім того, додає Янг, не буде зайвим опанувати якусь конкретну бізнес-сферу.

Пошук нового

Фахівець з data science має розрізняти концепції та інструменти. Перші залишаються актуальними доволі довго, другі швидко змінюються та примножуються. Експерт переконує: вчитися слід постійно, не варто зациклюватися на одному і тому ж інструментарії. “Дата-науковець має бути відкритим для інновацій”, — вважає він.

< Назад