Май

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов. Будучи математическими по своей природе, методы машинного обучения и анализа данных требуют численные величины в…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

РБК: Паспортные данные Дворковича и Чубайса попали в открытый доступ

В информационных системах госорганов — от реестра НКО Минюста до московского портала госзакупок — в открытом доступе размещены 360 тыс. записей с личными данными, в том числе сведения о бывших вице-премьерах правительства Как была обнаружена личная информация Около 360 тыс. записей с личной информацией обнаружил в открытом доступе председатель Ассоциации участников рынков данных Иван Бегтин. Об этом говорится в его исследовании «Утечки персональных данных из открытых источников. Государственные информационные системы» (есть у РБК). Бегтин проанализировал данные с сайтов восьми информационных госсистем — реестра субсидий федерального бюджета Минфина (50 тыс. записей), реестра отчетов некоммерческих организаций Минюста (10 тыс.), реестра обращений граждан на портале «Онлайн…

«Все первые опасения – про деньги»: автор исследования о доступности персональных данных россиян

России нужен глобальный аудит документооборота, чтобы персональные данные не надо было прописывать «на каждый чих», считает председатель Ассоциации участников рынков данных Иван Бегтин, обнаруживший в легальном интернет-доступе паспорта сотен тысяч бизнесменов. Более двух миллионов записей с паспортными данными, номерами СНИЛС и ИНН российских бизнесменов лежит в открытом доступе в Сети на закупочных площадках. Как рассказал «Фонтанке» автор этого открытия, председатель Ассоциации участников рынков данных Иван Бегтин, это – реальный пример того, как государство разрешает кибермошенникам пользоваться частной информацией.    – Иван, что случилось, что вы вдруг осознали эту проблему? Проблема ли это вообще? – Со мной ничего не случилось. Мы…

АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве

Гендиректор Ассоциации Участников Рынка Данных (АУРД) Иван Бегтин и гендиректор Ассоциации «Национальная база медицинских знаний» (НБМЗ) Борис Зингерман подписали соглашение о совместной деятельности. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок, включая искусственный интеллект для медицины. В том числе по вопросам формирования механизмов регулирования рынка данных и развития искусственного интеллекта для медицины и здравоохранения в Российской Федерации. «Сегодня вопрос управления данными – пожалуй, самый насущный! – прокомментировал генеральный директор Ассоциации «НБМЗ» Борис Зингерман, — Вопрос о праве на данные, на их законодательное использование – один из ключевых для…