Интервью: Александр Крайнов, директор по развитию ИИ, Яндекс

— Расскажите о нововведениях Яндекс в области искусственного интеллекта за последнее время.

— Переводчик — это один из основных проектов Яндекса. В системе автоматического перевода Яндекс.Переводчик известен очень давно и находится на топовом уровне. Сейчас уже все переводчики стали на таком уровне, что результат машинного перевода сложно отличить от человеческого, литературного. Мы уже идем к тому, что переводчик не только пишет текст, но и проговаривает его.

Недавно стало возможно переводить и озвучивать видео на иностранных языках. Это важно потому, что в мире есть великое многообразие контента на разных языках, про которое мы не знаем. И это очень интересная работа, которая объединяет несколько технологий.

Если говорить про искусственный интеллект, то понимание смысла и анализ текста — это то, что находится на самом пике. В 2012 году, когда в наш мир пришли новые нейронные сети, они начали показывать большие результаты в компьютерном зрении и генерации изображений. Сейчас во многих приложениях и компаниях доступна функция, когда фотографируешь что-то и сразу понимаешь, что это такое.

В приложении Яндекса «Умная камера» тоже есть такая функция: наводишь камеру на изображение или предмет, а система выдает, что это такое, где это купить и другую информацию. Каждый год это направление развивается.

В анализе текста также происходят сейчас тектонические сдвиги. И перевод — это только одна область, вторая — это то, насколько хорошо стали работать сети, которые генерируют текст. Есть интересная задача для генерации текста — нейро суммаризация. Это вызов для всех систем, которые связаны с поиском информации.

Главная задача у поисковой системы — решать проблемы пользователя. Бывают вопросы сложные, и это самый большой вызов, когда нужно найти информацию на нескольких ресурсах, проанализировать и сгенерировать для человека короткий и читаемый текст. И это то, над чем передовые компании Яндекса работают.

Если же говорить про компьютерное зрение, то сейчас очень интересная история в мире, это не только распознавание, но и генерация изображений. Так было и раньше, но сейчас в тренде мультимодальные системы, которые одновременно могут анализировать текстовой контент и изображения. Это очень сложная область. Огромная модель, которая требует большого расхода вычислительных мощностей. Но это очень интересно. В отличие от текстовых моделей, где все очевидно, в этом направлении много интересного и развивающего смысла.

— Можно ли назвать какие-то глобальные общероссийские и общемировые тренды в области развития технологий искусственного интеллекта или каждая компания занимается развитием собственного направления?

— Если говорить про искусственный интеллект и машинное обучение, то у этой области нет границ — она устроена таким образом, что на передовой находится наука, которая не принадлежит какой-то компании или стране. Есть множество научных достижений, у которых есть конкретные авторы из разных стран или компаний. Однако все они находятся в публичном доступе и становятся общим достоянием. Это своего рода котел знаний, в который кидают научные достижения различные компании и университеты. Поэтому мы живем в мире, где во всех компания все есть, и нет такого, что у кого-то одного технология есть, а у других нет.