07 февраля 202610:40

Директор Института прикладной семиотики АН РТ рассказал о цифровой науке и ИИ

В это воскресенье научное сообщество отмечает свой профессиональный праздник

— Здравствуйте, наша программа выходит в эфир на неделе, когда отмечается День российской науки. Есть такие стереотипы, что в науке невесело, да и зарплаты маленькие, вам приходилось сталкиваться с таким мнением?

— Мне кажется, это немножко устаревшее понятие. Научная деятельность точно не скучная. Наука – суть всей нашей жизни, это инструмент познания мира. И человечество с самого детства занимается познанием мира.

undefined— Вы по образованию прикладной математик, кандидат физико-математических наук и директор института семиотики Академии наук Республики Татарстан. Но семиотика же больше связана со словами, а не с цифрами.

— В классическом определении семиотика воспринимается как гуманитарная дисциплина, как наука, изучающая любые знаки. Мы переводим смыслы в виде фраз и слов в числа, в этом смысле для нас – это математическая дисциплина. И по сути «Прикладная Семиотика» сегодня –  это и есть Искусственный Интеллект.

— Если я правильно понял, то вы консолидируете и физиков, и лириков?

— Абсолютно верно. Это междисциплинарное направление, в котором продукт не может создаваться без участия и программистов, и математиков, и лингвистов, и филологов.

— Вы лауреат премии «Научный прорыв» в номинации «Цифровизация в науке». Сейчас нейросети и искусственный интеллект активно развиваются. Некоторые из ваших коллег опасаются, что в какой-то момент превратится из инструмента в конкурента. Вы этого не боитесь?

— Хороший вопрос, но если брать нынешнее состояние искусственного интеллекта, то, скорее всего, у меня нет опасений. Потому что сегодня он прежде всего является мощным инструментом для научных исследований, для построения гипотез. Но эти гипотезы в любом случае строятся на тех же математических моделях, которых разрабатывают ученые. Сегодня ИИ не генерирует новые знания, а лишь интерпретирует существующие знания, часто, выдумывая и искажая факты. При этом очень важно, чтобы он оставался контролируемым.

— Институт, которым вы руководите, стал разработчиком первого нейросетевого переводчика в русско-татарской языковой паре. Его презентовали в 2024 году (на самом деле его презентовали в 2019 году, не понимаю, откуда пошла такая инфоммация), насколько он востребован сейчас?

— Тут немножко надо коснуться предыстории разработки машинного переводчика. Наш институт занимается этим достаточно давно, еще с 90-х годов. Мы тесно сотрудничаем с Яндексом, начиная с 2015 года предоставили им свои датасеты, чтобы машинный переводчик в русско-татарско-языковой паре появился в их системе. Но мы видели, что качество оставляло желать лучшего и в 2019 году решили все-таки выпустить свой переводчик. Как раз тогда начали появляться новые технологии, нейросетевые технологии. Мы постоянно измеряем качество машинного переводчика, сосредотачиваемся именно на русско-татарской языковой паре. Яндекс и Google используют общих подход для всех языков, они не учитывают, например, социокультурные аспекты текстов на татарском языке. При этом важно иметь собственные разработки – это критический вопрос цифрового суверенитета и безопасности данных республики. Нельзя быть в полной зависимости от зарубежных сервисов в вопросах развития родного языка.

— А вообще TatSoft для кого в первую очередь предназначен?

— Его используют государственные ведомства. Наш переводчик интегрирован в систему Smartcat. Это платформа для автоматизированного перевода документов. Сам сервис функционирует в обшедоступной форме для любого пользователя. На сегодняшний день переводчиком воспользовались из 145 стран, обработано более 40 миллионов запросов. Мы непрерывно работаем над улучшением качества наших сервисов. При этом движемся к созданию мультимодальной системы, чтобы комплексно работать не только с текстом, но и с голосом и видео. Хотим, чтобы можно было в единой платформе загружать любые аудио и/или видео, а затем переводить их и создавать субтитры на русском и татарском языках.

undefined— Давайте от частного перейдем к общему и поговорим в целом о науке. В каждой стране научное сообщество сталкивается с теми или иными проблемами. В России какие проблемы у ученых сейчас?

— Сейчас трендовое направление - цифровая наука. В этом стезе важно иметь поддержку со стороны государства. В этом смысле в Татарстане, безусловно, уделяется науке большое внимание. С приходом Рифката Нургалиевича роль и поддержка этой отрасли заметно взросла. Учредили премию «Научный прорыв» в номинации «цифровизация в науке», уже второй год действует программа для постдоков. Для студентов и школьников ежегодно проводятся хакатоны, организовывается конкурс «Инновация года», есть и другие конкурсы. Такая государственная поддержка очень важна для развития науки. Но этого недостаточно, потому что все-таки ученые не должны зависеть от каких-то грантов. Должна выстроиться некая системная работа. Условно говоря, сегодня есть грант, а завтра нет, но фундаментальную задачу надо решать. Еще очень важно создать ученым экосистему: доступ к мощным серверам для обучения нейросетей, площадки для диалога с бизнесом и возможность стажировок в лучших ИТ-центрах. Нам же остро не хватает вычислительных мощностей. Необходимо проводить сотни экспериментов сотни экспериментов по обучению моделей. А сегодня один эксперимент на текущих мощностях может занимать от нескольких недель до более месяца.

— А если посмотреть на перспективу, в каком направлении будет развиваться наука в ближайшие годы?

— Это сложный вопрос. В рамках нашего института основная задача связана с тем, чтобы проводить фундаментальные исследования, которые будут основой построения объяснительного искусственного интеллекта. Наши исследования показывают, именно природный потенциал агглютинативных языков, в частности, татарского языка – может стать основой для создания когнитивной системы объяснительного ИИ нового поколения.

— Мне остается только поздравить вас с замечательным праздником Днем российской науки.

— Спасибо большое.