27 мая 2024
15 мин

«Пока экономически выигрывает человек, будет работать человек». Михаил Неверов, X5 Tech, — о мифах вокруг ИИ, внедрении его в бизнес и будущем ретейла

Компании из разных отраслей много говорят о внедрении ИИ в бизнес-процессы, но разглядеть реальную ценность этих решений для бизнеса часто бывает сложно. В преддверии конференции X5 Future Night директор по анализу данных X5 Tech Михаил Неверов рассказал, зачем X5 Group система умных помощников и внутренняя AI-платформа, почему ИИ-решения в итоге сократят количество средних специалистов в компаниях и как изменится ретейл с демократизацией новых технологий.

Михаил Неверов

Директор по анализу данных X5 Tech

Игра на тренде или эффективное решение

Компании сейчас много говорят о внедрении ИИ. Как понять, кто на самом деле делает что-то стоящее?

Есть компании, вклад в машинное обучение которых высок. Это обусловлено рядом факторов. Один из них — возможность масштабирования. Вы разработали IT-решение, можете его быстро раскатать и с помощью него заработать. Классический пример — кредитный скоринг. Вы один раз разработали систему скоринга, которая работает с большим количеством данных, охватили полторы тысячи клиентов, внедрив ее, — все, это какая-то польза.

Соответственно, если решение существенно оптимизирует бизнес-процесс, влияет на ключевую деятельность компании, то, скорее всего, она действительно этим пользуется, а не просто играет на технологическом тренде.

Есть ли еще какой-то индикатор?

Здесь мы в той же ловушке находимся. Каждая компания, которая говорит про ИИ, может воспринимать его по-своему. И вложения, и результаты будут разные.

Предположим, одна компания говорит: «Мы потратили 30 млн руб. и оптимизировали на 3% нашу систему ценообразования». Для обывателя это может звучать не очень убедительно. В другом углу ринга говорят: «Мы встроили большую языковую модель в работу команды поддержки, и теперь она может проконсультироваться с чат-ботом и лучше отвечать пользователям».

Может показаться, что второе решение более инновационное. Только компания, которая заявила о росте в 3%, грубо говоря, увеличила за счет этого розничный товарооборот на те же 3%. Для любого крупного ретейлера это огромные деньги: компания улучшила один из ключевых своих показателей.

То есть в масштабе эти 3% — действительно эффективный шаг с учетом специфики бизнеса. Но звучит как незначительное изменение.

Да, можно еще один пример привести. Предположим, компании нужно распознавать большое количество документов. Можно попытаться развернуть OCR, и это будет стоить денег (развертывание, поддержка, настройка, дообучение модели, поиск вендора). Второй вариант — проанализировать бизнес-процесс и понять, где у тебя больше всего «западает». Может оказаться, что проблема не с заведением документов, а с их проверкой. И можно тот же OCR заменить на специальные бланки с автопроверкой, которые будет заполнять человек. И это повысит точность на 33%, например. В итоге OCR тебе не нужен: ты решил бизнес-проблему и можешь двигаться дальше.

Все, что связано с ИИ: языковые модели, распознавание, видеоаналитика, — инструменты. Если компания действительно может с помощью них заработать, то это и есть применение.

Два главных мифа

Какие есть распространенные мифы про реализацию ИИ в бизнесе?

Чем дальше человек от технологии, тем больше у него мифов и ложных ожиданий. Первый классический миф — что это суперистория, которая решит все проблемы, некий «Скайнет». Второй — что нас всех заменят роботы.

Всесильность ИИ и ненужность людей — два самых распространенных мифа.

Можешь их сейчас опровергнуть?

Если исходить из консенсусной точки зрения, то, скорее всего, в будущем увеличится разрыв между людьми с разным уровнем знаний. Интеграция решений на базе ИИ уменьшит количество людей со средним уровнем знаний — просто потому, что их работу сможет сделать слабый сотрудник с помощью ИИ. Это может быть, например, написание кода или управление автомобилем. В целом макроэкономика двигается в этом направлении.

Вторая история — автоматизация. Если мы понимаем, что какую-то отрасль можно дешево оптимизировать с помощью технологий, то, скорее всего, на какой-то дистанции она будет оптимизирована. В этом плане мы больше всего продвинулись в беспилотных автомобилях, но на улицах они массово не ездят. Это вопрос не к технологии, а, например, к правовому полю: если автопилот причинит вред человеку, кто за это будет отвечать? Пока государство и компании не ответят на этот вопрос, технология использоваться не будет. Как следствие, водители общественного транспорта и такси не будут заменены. В ближайшее время мы увидим оптимизацию профессий, которые уже почти оптимизированы. Будет меньше участия человека в том же управлении автомобилем — по аналогии с машинистом электропоезда, который следит за тем, чтобы все шло по расписанию.

Полной замены не будет. Человек будет необходим для работы с этими технологиями. Цена ошибки во многих ситуациях настолько высока, что нужен человек.

Плюс сами технологии не всегда могут человека заменить. Даже творчество доступно тем же нейросетям весьма условно.

Внутренний Copilot для сотрудников

Какие ИИ-решения интегрирует X5 в свой бизнес?

У нас есть система CoPilot Х5, которая помогает людям, не инженерам и не айтишникам, получить легальный опыт взаимодействия с технологией. Речь про языковые модели. Например, копирайтер может обратиться к программе и попросить помочь ему вычитать текст либо что-то придумать.

Мы используем внутренние LLM-сети, YandexGPT, GigaChat, ChatGPT. Например, если вопрос сотрудника содержит коммерческую тайну, то это не должно уйти за пределы компании, поэтому запрос обрабатывают наши внутренние языковые модели.

Как это выглядит на выходе?

Это веб-интерфейс, стандартное окно чата. Правая половина — сам чат, левая — настройки с набором промтов. Модели переключаются в зависимости от задачи. Ты не можешь отправить запрос не туда, потому что существуют требования безопасности. В общем, есть промт-пресеты, а сама система подбирает языковую модель, отталкиваясь от запроса. Для человека опыт бесшовный.

То есть это такой внутренний, корпоративный чат-бот?

Да, Copilot, только для неайтишников.

И он общий для всех отделов? Или есть различия?

Мы идем к тому, что у каждого направления свои промты. Фактически это самые часто исполняемые действия. У инженеров по большей части промтов нет, потому что они обычно понимают, что хотят получить. Мы здесь как раз решаем вопрос демократизации технологии — чтобы чат-ботом пользовалось большее количество людей.

Мы с тобой вначале говорили о том, как новые решения влияют на бизнес-показатели. Как вы здесь оцениваете изменения?

Исторически так сложилось, что с помощью AB-тестирования мы оцениваем бóльшую часть инвестиционных инициатив. Сейчас мы разрабатываем систему оценки технологических интеграций. Скорее всего, речь об экономии трудочасов и пенетрации технологии (сколько людей пользуются ею, с какой частотой, насколько эффективно). Допустим, мы разработали десять промтов для HR, с помощью которых можно быстро написать ответное письмо, задать ключевые вопросы на основе резюме и так далее. Предположим, это ускоряет сотрудника на 30%. Нужно ли нам делать что-то дальше или хватит? Это нам предстоит узнать.

То есть мы даем людям платформу, для себя определяем метрики и решаем, какая из вертикалей ею больше пользуется и в какое направление лучше вкладываться. Потому что технология в итоге должна решать какую-то задачу, не только веселить людей.

AI-платформа для продуктовых команд

Вернемся к решениям, которые вы интегрируете. Мы остановились на копайлотах, что еще?

Это была первая история — демократизация технологии. Для нас она важна и с точки зрения покрытия, и с точки зрения небольших эффектов. Это то, с чего мы начинали: 3% ускорения работы 10 тыс. человек дает эффект гораздо более мощный, чем исключение одной какой-то специальности из поля деятельности.

Вторая история более технологичная: мы разрабатываем бизнес-платформу с AI-инструментами.

У нас большое количество продуктов внутри компании, они разные: прогнозирование, взаимодействие с пользователями, логистика. Мы говорим: «Ребята, если вы где-то внутри своего продукта хотите использовать компьютерное зрение, распознавание образов, работу с языковыми моделями в любой конфигурации — например, хотите, чтобы на вашем портале поставщика категорийный менеджер имел возможность у чат-бота что-то уточнить, — то вам не нужно внутри себя разворачивать отдельное решение, поднимать сеть, инфраструктуру, договариваться с отделом информационной безопасности. Вы по API стучитесь к этой AI-платформе, в зависимости от задачи получаете подходящую языковую модель и быстрый результат внутри своего продукта». То есть продуктовой команде не нужно изучать все языковые модели, их обновления, переключаться на наем и разработку.

Это B2B-решение?

Да, это внутреннее B2B-решение. В X5 более 3 тыс. человек работают с данными. Это прогнозирование спроса, оптимизация промо, персонализация покупательского опыта. Ландшафт инструментов и подходов к работе с данными эволюционирует, появляются большие языковые модели, новые инструменты требуют специфических знаний, специалистов, отдельной инфраструктуры. Мы эти вопросы закрываем, предлагая готовое решение.

Внутри компании более 50 продуктов плюс проекты, плюс у каждой сети есть своя специфика. Все понимают пользу от использования больших языковых моделей или компьютерного зрения. Мы значительно облегчаем их внедрение за счет внутренней AI-платформы.

В общем, это платформа, которая усилит уже существующие продукты внутри компании за счет разных AI-инструментов. Какие на ней доступны инструменты?

Их много: чат-бот, OCR, компьютерное зрение.

Как они усиливают продукты?

‍Классика жанра — приложение для массового подбора персонала, которое помогает директору магазина быстро нанимать людей. Допустим, те, кто его разрабатывает, хотят внедрить распознавание документов, чтобы облегчить учет и проверку новых людей — чтобы директор мог просто сфотографировать документы кандидата и отправить их в нужный департамент. Продукт тот же, бизнес-процесс тот же, но мы хотим усилиться. По классической схеме они идут в R&D и думают, кто может для них сделать это решение. Нужно найти подрядчика или нанять под этот блок новых людей, создать для них инфраструктуру — ты просто «отращиваешь» кусок продукта. Становится понятно, что эта небольшая оптимизация на 3–5% не оправдывает количество потраченных на нее денег. Мы предлагаем альтернативу — API. Вот обвязка, стучитесь — и вы получите результат.

Так же как мы ускоряем компанию за счет копайлотов на уровне обычных специалистов, мы хотим ускорить разрабатываемые внутри X5 продукты.

Мультифункциональность и человекоподобие

Есть ли еще какие-то решения?

Третья история — измерения и сравнения. О ней мы уже говорили. Мы разрабатываем метрики, с помощью которых сможем оценивать эффективность внедрения решений на базе ИИ. Это математическая, даже больше творческая задача — увидеть, что с чем связано, проследить корреляцию, доказать эту корреляцию и понять, как мы это можем измерять отдельно от общих действий компаний. Чтобы не было так, что компания растет на 3% в год и ты говоришь: «Видите, как ИИ работает», а рядом стоят грустные категорийные менеджеры, которые тебе обеспечили более выгодную цену. Отделять эффект важно, чтобы понять, есть ли смысл в это инвестировать.

В общем, здесь три направления: демократизация технологии, платформа для внутренних продуктовых IT-команд и измерение эффективности внедрения технологических инструментов.

Одна из основных проблем ИИ — это промышленная эксплуатация. На конференциях часто говорят про успешное внедрение. Но я, мягко говоря, мало знаю примеров хорошей промышленной эксплуатации ИИ, именно большой. Один из них — кол-центры, но роботы звонили людям и раньше.

Теперь они более человекоподобные.

Пока неочевидно, есть ли от этого эффект. Допустим, юрист хочет понять с помощью чат-бота различия между старым законом и новым в рамках конкретного дела. У него есть два варианта: обратиться к языковой модели внутри компании, заточенной под этот кейс, или использовать мощный мультиинструмент, который, если нужно, может дать ответ в стихах. Первое решение не сможет тебе ответить в стихах, как второе, но покрасить красным определенные места в законе — покрасит. Возникает вопрос, оправдана ли инвестиция в многофункциональность, в том числе человечность. Мы как раз хотим это определить.

Ты перечислил три новых направления. Насколько понимаю, результатов еще нет. На какой вообще все стадии?

Копайлот мы тестируем девять месяцев. За это время им воспользовались несколько тысяч человек в компании. В среднем к чат-боту обращаются до 1 тыс. уникальных пользователей в месяц. У нас к тому же есть внутреннее сообщество в Telegram Ai Run, в котором больше 700 участников. Сейчас мы общаемся с отраслевыми подразделениями, чтобы делать решения конкретно под HR, маркетинг, транспорт и другие направления.

AI-платформа в разработке. В нее уже подключены языковые модели. Сейчас реализуется несколько кейсов. Первый — это усиление команды поддержки, чтобы она получала точные и мгновенные ответы по существующей базе знаний. Второй кейс — обработка, редактирование и саммаризация документов. Третий — OCR, распознавание текстов разных видов, в том числе этикеток на продуктах.

Третье направление — измерение — в проторазработке, потому что мы опираемся на те кейсы, которые только-только реализуются. Есть классическая система оценки через AB-тестирование. Она тоже подходит, но нам опять же интересен не результирующий эффект — сработало или не сработало, а как это влияет в принципе на бизнес-процессы в компании. Поэтому мы и разрабатываем кастомную оценку.

Неудачные внедрения

Были ли какие-то неудачные кейсы внедрения ИИ-решений вне того, что ты перечислил?

В 2020 году мы пробовали внедрить видеоаналитику. У нас была хорошо обученная нейросеть. Работали с классической проблемой — пустыми местами на полке: камеры их распознавали и давали сигнал, что нужно вынести продукты.

Во время тестов мы столкнулись с тем, что не везде есть необходимая скорость интернета — значит, нужно разворачивать сервера на разных точках, чтобы ее поддерживать. Во-вторых, это все нужно обслуживать. Третья проблема — зоопарк устройств, с которыми приходится работать, потому что, закупая их, менеджер не думает, как они будут взаимодействовать в одной системе, а ориентируется на цену и базовые функции. Четвертая проблема — огромное количество магазинов. В общем, камеры нужно докупить, сервера — докупить, потом — держать дежурную смену, а еще уборщица может случайно сдвинуть камеру шваброй. Как следствие, мы не смогли добиться кумулятивного эффекта, затраты на разработку самой модели были меньше сопутствующих, и мы отказались от массового внедрения.

Решили проблему по-другому — менее точно, но достаточно изящно. Условно, у тебя за один час продается 1 кг бананов. Если у тебя два часа бананы не продаются, значит, с высокой долей вероятности их нужно вынести и положить на полку. Да, решение не всегда срабатывает. Но стоимость и скорость его внедрения побеждают видеоаналитику с разгромным счетом.

Мы заговорили про компьютерное зрение, я вспомнил про бескассовые магазины Amazon, которые в итоге закрылись. Насколько это реализуемо?

Сделать можно все что угодно. Вопрос один: выгоднее ли это, чем посадить человека на кассу? Допустим, час его работы стоит $10. Представь, сколько стоит поддерживать всю IT-инфраструктуру магазинов без касс: датчики, интернет, техническую команду.
Пока экономически выигрывает человек, будет работать человек. Здесь мы возвращаемся к вопросу, заменят ли технологии людей. Нет, не заменят.

Пока есть страны, в которых люди за $4 в час готовы шить обувь, компании будут работать с ними, а не внедрять роботов-швей.

Мы с тобой в промежутке говорили еще про сокращение людей. Вы сами сокращали людей после внедрения ИИ-решений?

В компании — нет. На рынке труда сейчас нехватка кадров. Поэтому мы рассматриваем ИИ как способ создавать бóльшую ценность с тем же количеством людей в штате. Мы рутинизируем какие-то процессы и отдаем их на аутсорс ИИ. Здесь больше фокуса на труде, который люди делают лучше, чем роботы.

Это российский контекст. Глобальные компании сейчас сокращают штаты сотрудников.

Это опять же то, о чем мы говорили в начале. Сокращают средний слой. Возьмем, например, сценаристов. У тебя есть дешевые работники, которые с помощью языковых моделей теперь могут выдавать средний результат. Середняку ты платил $20 в час, а дешевому платишь $2 плюс $3 за подписку на ChatGPT. И есть те, кто пишет шедевры: они стоят $100 в час и результат соответствующий. Большая часть массовых сокращений, по крайней мере в IT, как раз про это.

Будущее ретейла

Какие решения на базе ИИ сейчас популярны в ретейле?

Платформенные решения не распространены. По крайней мере, я не знаю примеров их массовой реализации в ретейле. Мы недавно подавались на премию CDO/CDTO Awards и не увидели ни у кого AI-платформы. В русскоязычном сегменте интернета примеров тоже не встречали, в ретейле точно.

Копайлоты, думаю, общий тренд. Вопрос в том, как это будет реализовано и в каком виде.

Создать отдельные метрики, которые будут биться со стратегией компании, — точно не уникальная история, потому что ретейл традиционно цифровизирован и хорошо считает деньги.

Есть еще что-то?

В целом это речевые технологии (голосовой помощник), распознавание с помощью видео и языковые модели — три вещи, с которых чаще всего начинаются эксперименты.

Как может измениться ретейл с приходом новейших технологий?

Ответ на вопрос сильно зависит от их доступности. Если у нас не будет доступа к вычислительным мощностям, если они будут стоить дорого, то ретейл не поменяется. Поэтому первое, что должно произойти, — это демократизация технологий. Мы увидим в массовом сегменте то, что было раньше в R&D и небольших магазинах. Классический пример — электронные чернила. Мы только сейчас начали их применять, хотя технология существует давно. Просто сейчас это стало экономически целесообразно: они не стоят как крыло боинга и мы можем себе позволить, не теряя в эффективности, массово применять электронные ценники.

Есть другой пример: последние несколько лет я встречаю раз в квартал стартап, который делает электронную примерку вещей. Раньше это стоило дорого, сейчас уже может массово применяться (те же 3D-сканеры есть в iPhone).

В общем, в следующие пять лет мы увидим реализацию того, что нам сейчас кажется чем-то запредельным.

В долгосрочной перспективе многое зависит от того, насколько продвинутся языковые модели в своих возможностях. Мы где-то остановимся, поймем, как их применять, — появится законодательная база (сейчас она малоразвита), и это повлияет на следующие пять лет.

Текст: Джейхун Мамедов