Артем Родичев четыре года возглавлял направление искусственного интеллекта (ИИ) в Replika — это чат-бот, способный строить отношения с людьми. Позже Родичев основал стартап Ex-Human, который создает цифровых людей для бизнеса. Мы поговорили с предпринимателем о том, как компании тренируют языковые модели, почему OpenAI закрыл доступ Replika к своей технологии и может ли чат-бот заменить человеческое общение.
— В марте 2023 года OpenAI презентовал новую языковую модель GPT-4. Чем она отличается от предыдущего поколения?
— В первую очередь тем, что она умеет работать с запросами, содержащими картинки. Еще GPT-4 способна обрабатывать больший объем текста. Вы можете задавать вопросы по статье или, например, дать пример кода и попросить починить ошибку в нем. Вы можете отправить модели целую книгу и задавать по ней вопросы — запросить краткое содержание, описание основных героев и так далее.
Новая модель может решать задачи более качественно — например, школьные или студенческие тесты. Так, экзамен для поступления в американские университеты SAT она уже решает лучше 90% школьников. Наконец, GPT-4 намного лучше работает на других языках, кроме английского.
— Как такая нейросеть создается — как ее тренируют?
— Тренировка состоит из трех шагов. На первом этапе нужно получить базовую языковую модель, которая может принимать естественный язык на вход и генерировать его на выходе.
Модель учат решать простую задачу: ей дают кусок текста и просят предсказать следующее слово. По сути, модель не занимается ничем другим, кроме как предсказывает следующее слово. Если она предсказала его правильно, всё работает. Если нет, то мы говорим модели, что она ошиблась, и в следующий раз она должна предсказывать лучше. Обучение происходит на открытых данных — «Википедия», книги, сайты.
На втором этапе нужно научить модель следовать инструкциям, а не только предсказывать следующее слово. Для этого собирают набор данных с инструкциями. OpenAI нанял много людей для сбора таких датасетов. Компания давала десятки тысяч заданий и просила специальных людей — асессоров — генерировать ответы. Дальше на этих данных тренируется так называемая «модель вознаграждения» (reward model). Она отвечает за то, чтобы нейросеть понимала, когда генерирует плохие ответы, а когда — хорошие, и ранжирует по качеству.
На третьем этапе происходит обучение на основе обратной связи от человека (или Reinforcement learning from human feedback — RLHF). Модель, научившаяся предсказывать следующее слово, дообучается на этой базе. Так мы получаем финальную версию, которая умеет следовать инструкциям, выполняет их и генерирует качественные ответы.
— Сколько людей нужно для обучения такой модели?
— Нужны люди-асессоры, оценивающие ответы модели. OpenAI не указывает количество, но это десятки людей, которые размечают данные. Для работы нужны большие дата-центры. OpenAI сотрудничает с Microsoft, у которой есть свое облачное хранилище Azure. Команда в рамках этого хранилища собрала суперкомпьютер, который входил в топ-10 суперкомпьютеров мира по производительности, и на нем в течение месяца учили изначальную модель ChatGPT. Обучение такой базовой модели стоит миллионы долларов только за счет вычислений на компьютере. Это могут позволить себе только крупные компании-лидеры.
— Replika относится к Conversational AI. Кстати, как это будет на русском?
— Переводят как «разговорный AI» или «диалоговый AI», но по-русски это звучит криво.
— Как эта модель работала в Replika? Сколько времени вам понадобилось, чтобы натренировать ее?
— В Replika своя специфика диалога. Основная цель проекта — быть другом пользователя, общаться про его жизнь и интересы, чтобы улучшить его эмоциональное состояние и настроение. Такой чат-бот должен развлекать человека и делать так, чтобы ему в конце такого диалога становилось лучше. Это очень отличается от работы ChatGPT, который нацелен на решение функциональных задач, но не умеет вести увлекательный диалог. Если вы пообщаетесь с ChatGPT, то получите информативные, но скучные ответы.
— Без эмпатии.
— Да, только общение с мистером «Википедия». В Replika мы задумывали дружеское общение, чтобы боты могли поддерживать людей, когда им грустно или хочется развлечься.
Мы начинали со скриптов и нейросетевых ответов. Скрипт — это диалоговое дерево с разными вариантами ответов, которые пишет редактор или контент-менеджер. Например, на вопрос «Какой твой любимый жанр фильма?» пользователь отвечает: «Мой любимый жанр — хоррор». Мы говорим: «О, я тоже люблю хоррор. Мне нравится фильм „Оно“».
Проблема в том, что пользователи могут отвечать что угодно. В итоге ты покрываешь какую-то часть диалога, но бóльшая его часть остается с общими, плохими ответами. Поэтому, когда нейросети стали активно развиваться, мы начали переходить на них. В 2018–2019 годах доля ответов от нейросетей была уже больше 90%. С написания контента работа сместилась в сторону работы с данными и тренировке алгоритмов.
— Нужно ли специальное техническое образование для работы в AI-проекте?
— Для написания скриптов особые знания не нужны. Диалог распадается в зависимости от вариантов, его может продумать любой. Сложность в том, что ты не напишешь глубокий диалог, потому что дерево все время разрастается, и ты никогда не предугадаешь все ответы. Если пользователь напишет, что любит польский артхаус, у тебя не будет ответа, а нейросеть может ответить на такой запрос. Чтобы тренировать нейросеть, нужны технические навыки, математическое образование и опыт.
Здесь тоже зависит от задач. Последние нейросети позволяют без программирования выстраивать так называемое «обучение в контексте» (in-context learning). Вместо того, чтобы обучать саму нейросеть, можно поставить задачу, продумав формулировку запроса (на англ. — prompt). Это похоже на работу с ассистентом, которому нужно передать какую-то задачу. Ты можешь описать ее в общем виде: «Отправь письмо Васе», а можешь уточнить: «Отправь короткое письмо Васе в неформальном стиле, потому что я с ним в дружеских отношениях. А еще — упомяни, что мы скоро запускаем проект, и спроси, не хочет ли он присоединиться».
— Это то, что ChatGPT может делать.
— Именно. Теперь можно так же программировать задачу. Многие стартапы используют технологию ChatGPT с помощью API. В таком виде особых технических навыков тоже не требуется. Но при таком подходе есть много рисков. В любой момент OpenAl может отрезать проект от доступа к сервису. Так, например, было с Replika.
Мы первыми стали использовать GPT-3 в 2020 году. Я лично работал с Грегом Брокманом, основателем OpenAI, и дообучал модель на наших данных. Мы запустили сервис на пользователей Replika и полгода были счастливы. Потом OpenAI пришел к нам и сказал: «Некоторые пользователи проводят романтические диалоги с Replika и выкладывают скриншоты в соцсети. Мы не хотим выглядеть как сервис, который предоставляет такие диалоги». Они увидели в этом репутационные риски, дали нам две недели и просто закрыли нам доступа к GPT-3.
— Романтические диалоги?
— Да, это в том числе интимные диалоги, ролевые игры, секстинг и тому подобное. Пользователи Replika рассматривают чат-бота не только как друзей, но и как e-girlfriends и e-boyfriends. OpenAI потом написали правило конкретно под этот кейс, что на их модели нельзя строить чат-бота для романтических диалогов и отношений.
После того, как OpenAI ограничил нам доступ, мы за полгода натренировали свою модель. Это удалось за счет глубокой экспертизы и достаточного количество данных. Не все так могут. В этом плане стартапы находятся под угрозой. В любой момент OpenAI может запретить им использовать свою технологию, и тогда они останутся без продукта. Более того, проекты передают свою данные в OpenAI. Компания, если захочет, может запустить конкурентный продукт, обучив его на ваших данных, а ваш проект просто лишить доступа к нейросети.
— Чем занимается твоя компания Ex-human?
— Мы строим цифровых людей в виде сервиса и продаем их другим бизнесам. Другими словами, создаем персонажей на основе ИИ, которые могут вести коммуникацию с пользователями. У нас есть много разных персонажей — гейша, вампиры, Золушка, Илон Маск и другие. У каждого персонажа есть свой характер.
— А для использования Илона Маска не нужно разрешение?
— В целом нужно. Поэтому кроме него никаких других популярных персонажей мы не используем. Илона Маска мы взяли, потому что его использует куча других стартапов, и никому из них ни разу не прилетело. Маску, кажется, выгодно, потому что это лишний пиар-повод. Но вообще нельзя просто взять и сделать AI-версию Джастина Бибера и начать ее продавать. Нужно покупать права на его AI-идентичность и так далее. При этом никто не мешает тебе сделать Иисуса, Махатму Ганди и любого другого исторического персонажа.
Наши клиенты в основном из индустрии развлечений — игры, метавселенные, в которых пользователям важно общаться. У нас еще есть чат-боты вроде Replika и движок для дейтинга. Мы можем проанализировать историю переписки и профиль пользователя и давать умные подсказки в смарт-реплаях — например, как начать или продолжить диалог.
— Вы используете собственную технологию для создания цифровых людей?
— Да, и в отличие от OpenAI мы предоставляем нашу технологию в том числе для романтических диалогов. Клиенты могут ее использовать как угодно в рамках закона.
— Может ли такой бот заменить общение с живыми людьми? Какова вероятность, что людям будет всегда приятнее общаться с тем, кто ему говорит: «Да-да, я тебя понимаю, я тоже люблю это кино», чем с тем, кто будет с ним ругаться и ссориться?
— Мы исследовали этот вопрос в Replika. Все упирается в то, как ты спроектируешь пользовательский опыт. Можно сделать так, что чат-бот будет тобой манипулировать. С развитием AI-технологий таких рисков всё больше. Человек может замыкаться на этом чат-боте и проводить с ним больше времени. Но ты можешь построить коммуникацию между человеком и чат-ботом таким образом, чтобы чат-бот, наоборот, мотивировал общаться с друзьями.
Если человек в диалоге с Replika упоминал друга, знакомого или родственника — допустим, Джона, мы через неделю могли спросить: «Как давно ты встречался с Джоном? Как у него дела? Не хочешь ли ты сходить с ним в бар?» Так что чат-боты могут мотивировать встретиться с другом, напомнить, что нужно позвонить маме, и инициировать другие социальные взаимодействия.
— Коммерческой компании выгодно, чтобы с ней проводили больше времени. Она хочет показывать рекламу и предлагать что-то пользователю. С другой стороны, этически она как бы должна подталкивать к тому, чтобы он меньше времени проводил с ботом. Как должны формулироваться этические кодексы на этот счет?
— Мне кажется, правильного «этического кодекса» не существует, потому что это не закон физики. Этика у каждого своя. Я не считаю, что должна быть какая-то организация вроде OpenAI, которая диктует этические правила и составляет моральный кодекс до тех пор, пока это находится в рамках закона. Мне кажется, все должно решать общество. Будут разные компании. Плохие — станут вести пропаганду, влиять на выборы, манипулировать людьми. Хорошие — делать так, чтобы люди становились, например, более социально активными. Победит конкуренция и желание общества.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.