Data Science: вчені запропонували структурований підхід до науки про дані
![Data Science: вчені запропонували структурований підхід до науки про дані](https://www.bigdatalab.com.ua/wp-content/uploads/2020/05/digital-388075_1920.jpg)
03.07.2020
Використання data science інструментів для досліджень – новий бум в університетському середовищі. Дата-аналітика застосовується скрізь, від інженерних до гуманітарних студій. Утім, структурного підходу до data science як дисципліни досі бракує.
Професорка інформаційних наук в Університеті Іллінойсу Вікторія Стодден запропонувала фреймворк, який може допомогти дослідникам, дата-аналітикам та розробникам навчальних курсів data science. Свої міркування науковиця виклала у профільному часописів Communications of the ACM, повідомляє TechExplore.
Стодден вивчала питання того, як відтворювати висновки досліджень більше ніж десятиріччя. У сьогоднішніх реаліях, зазначає вона, обчислювальні інструменти в науці (зокрема, Big Data), викликають дискусії щодо прозорості, упередженості, етики та інших тем. Професорка переконана, що ці питання виходять за межі будь-якого окремого наукового поля. Тому, пише вона, дослідникам потрібні єдині рамки для роботи з дата-аналітикою. Крім того, додає Стодден, такий підхід дозволить чітко виділити data science як окрему дисципліну.
Чому data science потрібно структурувати?
Аналітика даних використовується у багатьох галузях – тож єдиний підхід до data science дозволить представникам різних сфер мати спільну платформу для обговорень. Крім того, переконана Стодден, це заохочуватиме навчання data-based методів для дослідників, науковців та бізнес-аналітиків. Уніфікований підхід щодо data science також спрощуватиме вирішення проблем, які виникають у цій доволі молодій науці, а також допоможе публіці краще розуміти, як отримуються результати досліджень.
“Сподіваюся, що це шлях до об’єднання тих дискусій, що точаться зараз довкола дата-аналітики. Це допоможе їм розвиватися та ділитися знанням – зокрема, дізнаватися про те, що роблять інші, та обговорювати дослідження в інших галузях”, – пояснює професорка. Серед іншого, пише Стодден, єдиний фреймворк дозволить визначити, які питання аналітики даних можуть бути загальними для різних дисциплін, а які – специфічними.
Пропозиція науковиці ґрунтується на концепції життєвого циклу даних. Його використовують фахівці з інформаційних наук, щоб описувати різні етапи існування набору даних. Розроблений нею data science цикл стосується не лише дата-сетів, але й обчислювальних дослідницьких інструментів, як-от комп’ютерного коду чи програмного забезпечення.
Приклад життєвого циклу для data science. Зображення: Victoria Stodden
Що дає життєвий цикл data science?
На думку Стодден, використання такої моделі дає дослідникам та дата-аналітикам можливість оцінити різні процеси досліджень: від збору даних до аналізу, валідації, поширення – аж до використання висновків у бізнес-аналітиці та політичних дискусіях. Професорка вважає, що таким чином наука про дані стане більш прозорою, відкриє більше можливостей для відтворення результатів, розуміння того, як їх тлумачити, а також виявляти потенційні упередження та етичні проблеми.
“Це фреймворк для того, аби звести воєдино усі ці різні теми та задуматися, що це означає – працювати із data science”, – додає Стодден. “Більше думаючи стратегічно про те, що означає наука про дані, що означає використання цих інструментів, ми будемо кращими дослідниками та науковцями”.
Серед важливих елементів життєвого циклу data science – потреба у збереженні даних, програмного забезпечення та результатів обчислень. Це необхідно для публічного доступу до них після оприлюднення висновків досліджень та можливості відтворити результати.