Концерн «Росэнергоатом» (входит в Электроэнергетический дивизион Госкорпорации «Росатом»), АО «КОНСИСТ-ОС» (дочернее общество Концерна) и Частное учреждение по цифровизации атомной отрасли «Цифрум» (Госкорпорация «Росатом») завершили пилотный проект по созданию отраслевой системы по учету и хранению паспортов датасетов.
Датасет – это совокупность данных в терминах задач машинного обучения и их описания. Паспорт датасета содержит информацию о его содержании, владельце и цели использования, а также позволяет оценить его применимость для решения задач потребителя, определить способы загрузки и варианты последующего использования.
Проект был реализован в рамках программы Росатома «Сквозные цифровые технологии и управление данными» и направлен на создание единой платформы для отраслевого реестра датасетов, моделей машинного обучения, методологий решения типовых задач в области искусственного интеллекта. В базу уже загружены 12 пилотных паспортов датасетов, созданных «Росэнергоатомом» и компанией «Цифрум» в рамках проектов с использованием искусственного интеллекта и применением машинного обучения. Система проходит процедуру регистрации в Реестре российского ПО.
«Искусственный интеллект и, в частности, машинное обучение являются сейчас активно развивающимися технологиями в отрасли. На текущий момент уже накопился большой объем датасетов, которые используются для обучения искусственного интеллекта в рамках различных проектов. В связи с этим перед «Росэнергоатомом» и отраслью в целом встал вопрос создания их реестра и реализации возможности повторного использования уже имеющихся датасетов в других проектах. Это позволит существенно сократить время и трудозатраты на подготовку данных для создания новых моделей», - прокомментировал Олег Шальнов, директор Департамента управления ИТ-проектами и интеграцией АО «Концерн Росэнергоатом».
Каждый датасет размещается в реестре вместе с подробным описанием его содержания, назначения и истории использования. Эта информация позволяет оценить потенциальную пригодность конкретного набора данных для решения других задач и варианты его последующего использования. Наличие реестра также позволяет в случае сбоев в работе систем с искусственным интеллектом легко найти исходные данные, на которых обучалась данная нейросеть, провести анализ и внести необходимые корректировки в модель.
В свою очередь руководитель Центра цифровых технологий Концерна «Росэнергоатом» Константин Кудашев подчеркнул, что созданная система также решает важную задачу безопасного использования искусственного интеллекта на предприятиях отрасли. «Безопасность и эффективность систем искусственного интеллекта напрямую зависит от качества данных, на которых строятся и тренируются модели машинного обучения. Все наши датасеты являются верифицированными, апробованными на реальных моделях и работающими в промышленных системах, что позволяет создавать более точные модели. Само же их хранилище, размещенное в нашем опорном ЦОД, обеспечивает сохранность, защищенность и прозрачное использование всех наборов данных», - отметил он.
Создание реестра датасетов является одним из первых проектов, реализованных «Цифрумом» в направлении развития цифровых технологий и культуры использования данных в атомной отрасли. «Разработанный продукт позволяет отслеживать использование и полезность данных, определять ответственность и учитывать вклад людей, занимающихся развитием сферы искусственного интеллекта, в результат развития отрасли. Проект продемонстрировал, что при использовании цифровых технологий и объединении усилий участников данные в отрасли представляют собой универсальный актив, способный стать «топливом» как для уже существующих, так и для проектируемых бизнес-процессов», - сказал заместитель генерального директора по сквозным цифровым технологиям и управлению данными ЧУ «Цифрум» Антон Запрягаев.
Фото — pixabay.com