decor
decor

Названі топ-7 популярних питань на співбесідах з дата-аналітиками

< Назад
Названі топ-7 популярних питань на співбесідах з дата-аналітиками

26.08.2020

Що питають на інтерв’ю у фахівців з науки про дані?

Data science як спосіб ухвалення рішень на основі даних поєднує наукові методи з різних дисциплін, процеси та системи, які дозволяють отримувати додаткові знання з великих масивів інформації. Попит на фахівців у цій галузі дедалі зростає, тоді як спеціалістів на ринку бракує. 

Утім, якраз у сфері data science є чимало можливостей для тих, хто полюбляє роботу з цифрами та моделями, а також не боїться відкривати для себе нове та постійно професійно вдосконалюватися. Видання Analytics Insights підготувало добірку з топ-7 найпопулярніших питань на співбесідах із фахівцями на позиції в галузі data science чи data analytics.

1. Що таке data science? Перелічіть відмінності між контрольованим та неконтрольованим навчанням.

Можлива відповідь: Наука про дані – це міждисциплінарна галузь, яка використовує наукові методи, процеси, алгоритми та системи для отримання знань та розумінь із структурних та неструктурованих даних. Data science поєднує концепції отримання даних, машинного навчання та big data.

Контрольоване та неконтрольоване навчання – це дві техніки машинного навчання, що використовуються в різних сценаріях та з різними наборами даних. У контрольованому методі моделі навчаються за допомогою позначених даних та шукають функцію для пов’язування вхідної та вихідної змінної, як-от при класифікації чи регресії. 

У неконтрольованому патерни виводяться з непозначених вхідних даних. Його мета – знайти структуру та закономірності вхідних даних. Якщо у першому випадку потрібне втручання аналітика для тренування моделі, у цьому немає нагляду. Натомість у ньому програма знаходить шаблони з даних самостійно.

2. Що таке лінійна регресія?

Можлива відповідь: Лінійна регресія допомагає зрозуміти лінійний зв’язок між залежною та незалежною змінними. Лінійна регресія – це керований алгоритм навчання, який допомагає встановити лінійний зв’язок між двома змінними.

3. Що краще для аналізу текстів, Python чи R? 

Можлива відповідь: Python був би найкращим варіантом із бібліотекою Pandas, яка забезпечує прості у використанні структури даних та високоефективні засоби data analysis. R більше підходить для машинного навчання, ніж просто аналізу тексту. Python працює швидше для всіх типів аналітики тексту.

4. Поясніть алгоритм машинного навчання SVM

Можлива відповідь: SVM розшифровується як підтримка векторної машини. Це керований алгоритм машинного навчання, який можна використовувати як для регресії, так і для класифікації. SVM намагається побудувати його в n-мірному просторі, де значення кожної змінної є значенням певної координати. SVM використовує гіперплани для розділення різних класів на основі наданої функції ядра.

5. Що таке викиди та що з ними робити? 

Можлива відповідь: Викиди – дані в статистиці, які виділяються з загальної вибірки. Тобто, аномальне значення, яке сильно відрізняється від інших у вибірці. Ідентифікація викидів може бути здійснена за допомогою одновимірного або іншого способу графічного аналізу. Кілька вищих значень можна оцінювати індивідуально, але для оцінки великого набору значень зовнішніх значень потрібна заміна їх на значення або 99-го, або 1-го процентилю.

6. Які кроки входять до реалізації аналітичного проєкту?

Можлива відповідь: ось низка кроків, пов’язаних з аналітичним проєктом:

  • Розуміння бізнес-проблеми
  • Вивчення даних
  • Підготовка даних до моделювання за допомогою виявлення викидів, трансформації змінних, обробки відсутніх значень тощо
  • Запуск моделі та аналіз результату для внесення відповідних змін або модифікацій до моделі (повторний крок, який робиться до досягнення найкращого можливого результату)
  • Перевірка моделі за допомогою нового набору даних
  • Реалізація моделі та відстеження результату для аналізу її ефективності

7. Як би ви пояснили глибинне навчання?

Можлива відповідь: Глибинне навчання – це метод нейронних мереж, заснований на згорткових нейронних мережах (CNN). Глибинне навчання має широкий спектр застосувань, починаючи від фільтрації контенту в соціальних мережах до аналізу медичних зображень та розпізнавання мовлення. Caffe, Chainer, Keras, Microsoft Cognitive Toolkit, Pytorch та TensorFlow – одні з найпопулярніших фреймворків глибинного навчання на сьогодні.

< Назад