Ксения Орлова

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов. Будучи математическими по своей природе, методы машинного обучения и анализа данных требуют численные величины в…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

РБК: Паспортные данные Дворковича и Чубайса попали в открытый доступ

В информационных системах госорганов — от реестра НКО Минюста до московского портала госзакупок — в открытом доступе размещены 360 тыс. записей с личными данными, в том числе сведения о бывших вице-премьерах правительства Как была обнаружена личная информация Около 360 тыс. записей с личной информацией обнаружил в открытом доступе председатель Ассоциации участников рынков данных Иван Бегтин. Об этом говорится в его исследовании «Утечки персональных данных из открытых источников. Государственные информационные системы» (есть у РБК). Бегтин проанализировал данные с сайтов восьми информационных госсистем — реестра субсидий федерального бюджета Минфина (50 тыс. записей), реестра отчетов некоммерческих организаций Минюста (10 тыс.), реестра обращений граждан на портале «Онлайн…

«Все первые опасения – про деньги»: автор исследования о доступности персональных данных россиян

России нужен глобальный аудит документооборота, чтобы персональные данные не надо было прописывать «на каждый чих», считает председатель Ассоциации участников рынков данных Иван Бегтин, обнаруживший в легальном интернет-доступе паспорта сотен тысяч бизнесменов. Более двух миллионов записей с паспортными данными, номерами СНИЛС и ИНН российских бизнесменов лежит в открытом доступе в Сети на закупочных площадках. Как рассказал «Фонтанке» автор этого открытия, председатель Ассоциации участников рынков данных Иван Бегтин, это – реальный пример того, как государство разрешает кибермошенникам пользоваться частной информацией.    – Иван, что случилось, что вы вдруг осознали эту проблему? Проблема ли это вообще? – Со мной ничего не случилось. Мы…

АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве

Гендиректор Ассоциации Участников Рынка Данных (АУРД) Иван Бегтин и гендиректор Ассоциации «Национальная база медицинских знаний» (НБМЗ) Борис Зингерман подписали соглашение о совместной деятельности. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок, включая искусственный интеллект для медицины. В том числе по вопросам формирования механизмов регулирования рынка данных и развития искусственного интеллекта для медицины и здравоохранения в Российской Федерации. «Сегодня вопрос управления данными – пожалуй, самый насущный! – прокомментировал генеральный директор Ассоциации «НБМЗ» Борис Зингерман, — Вопрос о праве на данные, на их законодательное использование – один из ключевых для…

Защита информации: Как утекают персональные данные?

Иван Бегтин исследовал сайты государственных информационных систем и сервисов, удостоверяющих центров, электронных торговых площадок и выявил потенциальные источники утечки персональных данных: ФИО, паспортные данные, СНИЛС, сведения о трудоустройстве. Это не менее 2,25 млн записей, опубликованных в открытом доступе. Например, портал «Онлайнинспекция.рф» без ограничения публикует обращения граждан, которые содержат внутри их персональные данные. Поисковые системы индексирует эти записи и показывают в выдаче. В ходе исследования Google выдал 15 тысяч релевантных страниц по запросу с ключевыми словами: «паспорт серия» и «паспортные данные». В РБК опубликовали третью статью из серии исследований о доступности персональных данных на сайтах электронных торговых площадок и государственных информационных систем:…

Дата-среда: «Семантический анализ текста в неевклидовой геометрии»

24 апреля 2019 приглашаем на дата-среду из цикла «Большие данные в экономике». Тема второй встречи цикла — «Преимущества векторных представлений слов в неевклидовых геометриях». Как аналитики в сфере бизнеса, так и академические исследователи зачастую сталкиваются с необходимостью семантического анализа текста. Он может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказание размера заработной платы по описанию вакансии. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнит стандартные методы нахождения векторных представлений…

Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области прикладных исследований по цифровой трансформации. Data mining – интеллектуальный анализ данных, совокупность методов обнаружения в данных ранее неизвестных, нетривиальных и практически полезных знаний. Сегодня результаты анализа данных позволяют по-новому взглянуть на процессы, происходящие на предприятии. При этом на практике академический подход часто не может быть внедрен в бизнес-процессы, потому что организации не могут себе позволить,…

Право на данные: цифровой профиль гражданина, технооптимисты и искусственный интеллект

27 марта на форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Эксперты обсудили недостатки текущего законодательства РФ, которые мешают развитию рынка данных, а также поговорили об этических вызовах, возникающих вместе с появлением новых технологий. Участники: Светлана Белова, директор IDX; Иван Бегтин, генеральный директор Ассоциации участников рынка данных; Борис Зингерман, директор Ассоциации разработчиков и пользователей искусственного интеллекта “Национальная база медицинских знаний”; Екатерина Калугина, главный юрист IT Legal Consulting; Дженифер Трелевич, исполнительный директор TGPO consult; Иван Фост, руководитель направления в Аналитическом центре при Правительстве РФ; Мария Шклярук, генеральный директор Центра перспективных управленческих решений. Модератор Михаил Петров, директор Департамента цифровой…