Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.

Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области прикладных исследований по цифровой трансформации.

Data mining – интеллектуальный анализ данных, совокупность методов обнаружения в данных ранее неизвестных, нетривиальных и практически полезных знаний. Сегодня результаты анализа данных позволяют по-новому взглянуть на процессы, происходящие на предприятии. При этом на практике академический подход часто не может быть внедрен в бизнес-процессы, потому что организации не могут себе позволить, чтобы сотрудники тратили большое количество времени, спорили, доказывали, искали тонкости того или иного подхода, копались в особенностях самих методов анализа, пытались их улучшить.

Стоимость анализа данных для любой организации и исследовательского проекта очень высока. Постоянно стоит задача удешевить аналитику и попробовать разные методы.  В своем выступлении Дмитрий Стефановский прокомментировал: «Это проистекает от того, что нет единой теории и сложившейся методики анализа данных. Как обычно действуют – берут данные, по очереди применяют к ним один за другим методы, проверяют качество этих методов и выбирают тот метод, который дал наилучший результат. Это во многом напоминает кибернетический подход: мы метод подаем на данные, смотрим его результаты, выжил – не выжил, отбрасываем».

При этом необходима среда, которая позволила бы это все делать быстро и сравнивать результаты в едином визуальном поле. Нужен инструмент, который позволит вам быстро построить и проанализировать модель. Одним из таких инструментов является бесплатный продукт Orange. Данный открытый продукт предлагает машинное обучение и визуализацию данных для новичков и экспертов.

Подробный рассказ о продукте и его возможностях, а также практические примеры применения Orange в RFM-анализе и анализе текстов смотрите в записи дата-среды:

Презентация в PDF 📊: DataSreda-Mining.

А также рекомендуем выступление Дмитрия Стефановского на «Дне открытых данных в Москве» 2019, где разбирается кейс применения Orange для целей Федеральной налоговой службы. Задача состояла в том, чтобы на основе данных (доход предприятия в год, издержки в год, уплаченные налоги и время с момента последней проверки) предсказать, какое предприятие должно обязательно пройти проверку и обосновать, почему именно это предприятие.

Всем тем, кто хотел бы повысить квалификацию, системно и углубленно изучить современные способы анализа данных в экономике, мы рекомендуем магистерские программы РАНХиГС: «Системы больших данных в экономике» и «Цифровая экономика и современная комбинаторика» (дистанционная программа).

20 апреля состоится День открытых дверей в РАНХиГС. С 14:40 – 16:10 у всех желающих будет возможность задать вопросы руководителям магистерских программ «Системы больших данных в экономике» и «Цифровая экономика и современная комбинаторика».