«Эмпатия» нейросети: как ИИ помогает нам понимать себя и других
В январе 2024 года Сэм Альтман, выступая на программе Y Combinator, посоветовал командам не сосредотачиваться на ограничениях GPT-4 при создании новых продуктов, так как в следующей версии модели большинство ограничений будет устранено. После вчерашней презентации OpenAI стало ясно, что Альтман намекал на новую флагманскую модель GPT-4o, которая теперь еще более человекоподобна. Разбираемся, что изменилось и как теперь выглядит наше будущее.
GPT-4o теперь умеет одновременно работать с текстом, звуком и видео. Раньше модель обрабатывала разные типы данных по отдельности — и это ее ограничивало. Например, если вы говорили с ChatGPT, пользуясь голосовым вводом в приложении, то он понимал только слова и не учитывал интонации и эмоциональность речи. Если вы присылали чат-боту изображение, он его анализировал, не сопоставляя с аудиоконтекстом. ChatGPT мог поддерживать диалог через текст, голосовые транскрипции и изображения, но ему не хватало способности понимать и интерпретировать в реальном времени невербальные сигналы — язык тела и интонации говорящего, которые составляют значительную часть коммуникации.
Модель GPT-4o собирает эти модальности — текст, звук и изображение — воедино в реальном времени (потому в названии использовали букву «о», то есть omni — приставка, обозначающая объединение всего). GPT-4o понимает не только что вы говорите, но и как вы это говорите: учитывает тон вашего голоса, выражение лица и даже фоновые звуки. Пользователь получает не просто ответы на вопросы, а полноценное общение, в котором ИИ улавливает эмоции собеседника и адаптируется под его настроение. Чат-бот может, например, похихикать вместе с человеком. На презентации GPT-4o также просили рассказать историю «драматично», голосом робота и пропеть ее.
Средняя скорость реагирования модели на речь — 320 миллисекунд. Это сопоставимо с реакцией человека в живом разговоре. Можно, например, прервать чат-бота в середине ответа, чтобы задать уточняющий вопрос.
Пользователи соцсетей уже успели сравнить происходящее с фильмом «Она», в котором главный герой влюбляется в операционную систему на базе ИИ.
{{slider-gallery}}
{{quote1}}
{{quote2}}
{{quote3}}
OpenAI очередной раз «обновила» правила игры в нашем взаимодействии с ИИ. Но, как и в любом технологическом прорыве, здесь есть место как оптимизму, так и скепсису.
С одной стороны, GPT-4o, способный взаимодействовать в человекоподобной манере, может усилить восприятие чат-бота как полноценного участника общения. В таком случае ИИ из технологического инструмента превращается в настоящего компаньона, который умеет понимать и поддерживать. Это может изменить то, как мы строим социальные взаимодействия, ожидая от технологий понимания и эмпатии наравне с людьми.
Рэй Курцвейл, приверженец идеи технологической сингулярности, прогнозирует будущее, в котором ИИ и человеческий мозг будут сливаться, расширяя интеллектуальные способности человека. Так, технология станет неотъемлемой частью нашего мозга, чем-то вроде внешнего жесткого диска. А голосовое взаимодействие с ИИ сделает его более доступным и полезным. Представьте, что ваш виртуальный ассистент не просто помогает вам с задачами, но и участвует в креативных процессах, предлагает идеи и помогает их реализовать, работая как настоящая правая рука, притом подшучивая на ходу.
На противоположном полюсе Шерри Теркл. Ее стезя — социальные аспекты взаимодействия человека с технологиями в MIT. Теркл обращает внимание на психологические последствия технологического прогресса. В своих работах она предупреждает об ухудшении человеческих взаимоотношений из-за повышенной зависимости от технологий: настоящее общение и глубокие человеческие связи страдают, а люди все больше ожидают эмоциональной поддержки от машин, которая не может полностью заменить человеческое взаимодействие. Но, кажется, у нас нет выбора. ИИ неизбежно проникает в жизнь и требует от нас новых протоколов и подходов, чтобы минимизировать негативные последствия и усилить положительное влияние технологий на жизнь.
Время на это есть. В основе инженерной культуры OpenAI лежит итеративное развертывание продукта, благодаря чему публика постепенно адаптируется к нему. Так, например, было с плагинами, которые потом превратились в кастомизированные GPTs. Чтобы снизить сопротивление общества отчасти пугающим новшествам, OpenAI прививает аудитории чувство непрекращающегося эксперимента — еще и бесплатного.
GPT теперь будет общаться, используя большой спектр эмоций, а также улавливать эмоции пользователя. Фанаты научной фантастики и антиутопий теперь смогут повторять сценарии любимых произведений в реальной жизни.
Что еще может новая модель? Она умеет генерировать звуки окружения, петь, быть переводчиком, работать с дизайном и текстом на изображениях, понимает пространство. С ней можно решать математические задачи, учить языки, подключать на видеоколлы с коллегами и придумывать креативные решения для проектов. Еще она неплохо умеет шутить и использовать сарказм.
Можно даже сказать, что презентации OpenAI становятся настоящими событиями, вытесняя в этом плане Apple c пьедестала почета.
Вчерашний релиз GPT-4о от OpenAI очередной раз взорвал мой мозг. Потому что каждый раз они умудряются попасть в мой оптимистичный прогноз, в который, казалось, невозможно попасть.
Главные изменения касаются не столько увеличения интеллектуальных способностей модели, сколько ее человечности. Теперь GPT-4 отвечает быстрее, понятнее и демонстрирует эмоциональную окраску в ответах. Особенно впечатляет способность модели считывать изображение в реальном времени. Это значительно расширяет ее функциональные возможности как помощника.
Еще важно отметить социальное значение этих изменений: модель может улучшить жизнь людей с ограниченным возможностями, особенно тех, у кого есть проблемы со зрением.
GPT-4o работает с текстом, аудио и изображениями. Но не с видео: для этого нужно больше мощностей и данных. Сейчас бот просто фиксирует изображение в моменте и анализирует его. Дальнейший шаг — работа с видео и 3D. Все идет к этому.
Честно говоря, я не вижу в LLM способности решать все задачи. Многие прочат, что это шаг на пути к AGI. Это, безусловно, отличный инструмент, но не AGI. Здесь я бы сослался на Яна Лекуна, главного по ИИ в Meta (запрещена в РФ). Он говорит, что, создавая LLM, мы пытаемся представить через текст все модальности, но на самом деле реальный мир далеко не текст. Чтобы идти в сторону AGI, нужно также использовать предметно-ориентированный подход. Это, например, сигналы от сенсоров, снимки МРТ — данные, которые мы не можем описать текстом. Тогда будет возможна метамодальность.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.