Новости > Цифровая экономика

04.07.2019

ДВФУ открывает проект по обучению машин и нейросетей русскому языку

Одним из первых продуктов по итогам работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги
В Школе цифровой экономики Дальневосточного федерального университета откроется цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Проект реализуется в лаборатории машинного обучения ШЦЭ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Сбор заявок на участие в первом этапе работы будет открыт в сентябре, сообщает пресс-служба университета.

Одним из первых продуктов по итогам работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

«Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам», — рассказал директор Школы цифровой экономики ДВФУ Илья Мирин.

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути — создать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

«Это чрезвычайно объёмная работа с перспективой на много лет. Однако первичный этап накопления языкового материала мы в ШЦЭ планируем завершить уже через год, после чего приступим к его оцифровке», — уточнил Илья Мирин.

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

«Для развития алгоритмов искусственного интеллекта обучающие данные не менее важны, чем алгоритмы. Появление в прошлом десятилетии открытого корпуса из 14 миллионов изображений ImageNet оказало потрясающее влияние на развитие компьютерного зрения — исследователи и разработчики смогли создавать новые методы анализа данных и применять компьютерное зрение в реальных задачах. Вместе с ДВФУ мы сможем собрать «голосовой ImageNet», который продвинет исследования в области распознавания и синтеза речи в России и мире. Кроме того, мы постараемся собрать не только русские речевые корпуса, но и корпуса для языков малых народов России», — рассказал генеральный директор «Нейросетей Ашманова» Станислав Ашманов.

В 2019-20 учебном году основным исследовательским направлением на магистерской образовательной программе «Искусственный интеллект и большие данные», открытой в ШЦЭ ДВФУ при поддержке Корпоративного университета «Сбербанка» и «Нейросетей Ашманова», станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как иностранному, азиатским языкам, а также журналисты и инженеры-программисты.

«На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные — практически вымерли. Сегодня мы говорим о новой письменности — формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины — от микроволновок и принтеров до автомобилей и промышленных роботов, — скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети. Эту важную цивилизационную задачу мы будем решать попутно с разработкой прикладных продуктов на основе искусственного интеллекта», — резюмировал Илья Мирин.

Первая в России Школа цифровой экономики открылась в 2018 году в ДВФУ. Она включает пять магистерских программ: «Искусственный интеллект и большие данные», «Технологии виртуальной и дополненной реальностей VR/AR», «Кибербезопасность», «Управление развитием территорий на основе технологий и данных дистанционного зондирования Земли», «Цифровое искусство».

#ДВФУ, #искусственный интеллект

Еще по теме

02.04.2020 На конкурс World AI & Data Challenge открыт прием задач по борьбе с COVID-19

31.03.2020 В Иннополисе анонсировали разработку онлайн-сервиса, способного выявлять больных с коронавирусной пневмонией

11.03.2020 В финале Олимпиады НТИ по искусственному интеллекту спрогнозировали расходы клиентов банка

27.02.2020 Первые национальные стандарты для ИИ в медицине разработают в 2020 году

25.02.2020 Дорожные карты по внедрению ИИ в транспорте и в других отраслях спроектирует Минэкономразвития

25.02.2020 Ассоциация НБМЗ заключила соглашение по акселерации систем поддержки принятия врачебных решений

12.02.2020 Законопроект о введении в Москве особого правового режима для развития ИИ планируется принять уже в марте

12.02.2020 АСИ и Всемирный банк организовали международный конкурс World AI&Data Challenge

17.01.2020 Дмитрий Песков обозначил главные вызовы для цифровой трансформации медицины

17.01.2020 Сборная Петербурга выиграла олимпиаду по управлению беспилотниками с технологиями ИИ

string(3) "!!!" array(14) { ["ID"]=> string(4) "3898" ["~ID"]=> string(4) "3898" ["NAME"]=> string(100) "Цифровое развитие регионов – от практиков и экспертов" ["~NAME"]=> string(100) "Цифровое развитие регионов – от практиков и экспертов" ["DATE_CREATE"]=> string(19) "12.11.2019 20:31:56" ["~DATE_CREATE"]=> string(19) "12.11.2019 20:31:56" ["PROPERTY_LINK_VALUE"]=> string(34) "https://rf2035.net/labs/faculty/2/" ["~PROPERTY_LINK_VALUE"]=> string(34) "https://rf2035.net/labs/faculty/2/" ["PROPERTY_LINK_VALUE_ID"]=> string(5) "13039" ["~PROPERTY_LINK_VALUE_ID"]=> string(5) "13039" ["PREVIEW_PICTURE"]=> string(4) "4044" ["~PREVIEW_PICTURE"]=> string(4) "4044" ["SORT"]=> string(3) "500" ["~SORT"]=> string(3) "500" }

Принять участие

Мероприятия НТИ

Подписка на обновления

«Информбюро 20.35» делает почтовую рассылку самых интересных публикаций один раз в неделю. Чтобы подписаться на нее, зарегистрируйтесь или войдите через свою учетную запись на платформе leader-id.ru.