Май

НСУД: что думают о разработке системы IT-сообщество и представители бизнеса?

29 мая на заседании в Правительстве министр цифрового развития Константин Носков представил концепцию создания и функционирования Национальной системы управления данными перед главой и членами Правительства. Из доклада следует, что Минкомсвязь совместно с Аналитическим центром при Правительстве, Минэкономразвития и Минфином проведёт аудит информационных систем госорганов, сформирует план их развития и обеспечит их модернизацию. Разработчики системы планируют провести эксперимент по пяти направлениям, чтобы подтвердить правильность выбора методологии и протестировать платформу. Туда входит формирование федерального регистра избирателей, цифрового профиля гражданина, создание цифровой аналитической платформы, а также коррекция адресной информации. Премьер-министр Дмитрий Медведев принял концепцию и заявил, что НСУД заработает в 2022 году. Иван…

«Лоретт» вступила в Ассоциацию участников рынка данных

Инженерная компания «Лоретт» вступила в Ассоциацию участников рынка данных (АУРД). Ассоциация создана в 2018 году для развития отрасли данных в России, представления и защиты интересов ее членов и для достижения общественно полезных целей. Более 30 лет Владимир Гершензон и Ольга Гершензон упрощают доступ к снимкам Земли из космоса, являясь учредителями группы компаний «СКАНЭКС», а с 2017 года — соучредителями компании «Лоретт». Их общественная деятельность во многом способствовала снятию ограничений на использование данных ДЗЗ сверхвысокого разрешения. «В компании „Лоретт“ мы разработали принципиально новые средства приема данных ДЗЗ (патент в стадии оформления) и ратуем за снятие любых ограничений на использование снимков Земли из космоса и топографических карт, за открытость и доступность данных. Ассоциация участников рынка данных кажется перспективным инструментом для продолжения реализации наших идей», — сказал генеральный директор компании…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов. Будучи математическими по своей природе, методы машинного обучения и анализа данных требуют численные величины в…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

РБК: Паспортные данные Дворковича и Чубайса попали в открытый доступ

В информационных системах госорганов — от реестра НКО Минюста до московского портала госзакупок — в открытом доступе размещены 360 тыс. записей с личными данными, в том числе сведения о бывших вице-премьерах правительства Как была обнаружена личная информация Около 360 тыс. записей с личной информацией обнаружил в открытом доступе председатель Ассоциации участников рынков данных Иван Бегтин. Об этом говорится в его исследовании «Утечки персональных данных из открытых источников. Государственные информационные системы» (есть у РБК). Бегтин проанализировал данные с сайтов восьми информационных госсистем — реестра субсидий федерального бюджета Минфина (50 тыс. записей), реестра отчетов некоммерческих организаций Минюста (10 тыс.), реестра обращений граждан на портале «Онлайн…

«Все первые опасения – про деньги»: автор исследования о доступности персональных данных россиян

России нужен глобальный аудит документооборота, чтобы персональные данные не надо было прописывать «на каждый чих», считает председатель Ассоциации участников рынков данных Иван Бегтин, обнаруживший в легальном интернет-доступе паспорта сотен тысяч бизнесменов. Более двух миллионов записей с паспортными данными, номерами СНИЛС и ИНН российских бизнесменов лежит в открытом доступе в Сети на закупочных площадках. Как рассказал «Фонтанке» автор этого открытия, председатель Ассоциации участников рынков данных Иван Бегтин, это – реальный пример того, как государство разрешает кибермошенникам пользоваться частной информацией.    – Иван, что случилось, что вы вдруг осознали эту проблему? Проблема ли это вообще? – Со мной ничего не случилось. Мы…

АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве

Гендиректор Ассоциации Участников Рынка Данных (АУРД) Иван Бегтин и гендиректор Ассоциации «Национальная база медицинских знаний» (НБМЗ) Борис Зингерман подписали соглашение о совместной деятельности. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок, включая искусственный интеллект для медицины. В том числе по вопросам формирования механизмов регулирования рынка данных и развития искусственного интеллекта для медицины и здравоохранения в Российской Федерации. «Сегодня вопрос управления данными – пожалуй, самый насущный! – прокомментировал генеральный директор Ассоциации «НБМЗ» Борис Зингерман, — Вопрос о праве на данные, на их законодательное использование – один из ключевых для…