Директор по анализу данных X5 Tech
Есть компании, вклад в машинное обучение которых высок. Это обусловлено рядом факторов. Один из них — возможность масштабирования. Вы разработали IT-решение, можете его быстро раскатать и с помощью него заработать. Классический пример — кредитный скоринг. Вы один раз разработали систему скоринга, которая работает с большим количеством данных, охватили полторы тысячи клиентов, внедрив ее, — все, это какая-то польза.
Соответственно, если решение существенно оптимизирует бизнес-процесс, влияет на ключевую деятельность компании, то, скорее всего, она действительно этим пользуется, а не просто играет на технологическом тренде.
Здесь мы в той же ловушке находимся. Каждая компания, которая говорит про ИИ, может воспринимать его по-своему. И вложения, и результаты будут разные.
Предположим, одна компания говорит: «Мы потратили 30 млн руб. и оптимизировали на 3% нашу систему ценообразования». Для обывателя это может звучать не очень убедительно. В другом углу ринга говорят: «Мы встроили большую языковую модель в работу команды поддержки, и теперь она может проконсультироваться с чат-ботом и лучше отвечать пользователям».
Может показаться, что второе решение более инновационное. Только компания, которая заявила о росте в 3%, грубо говоря, увеличила за счет этого розничный товарооборот на те же 3%. Для любого крупного ретейлера это огромные деньги: компания улучшила один из ключевых своих показателей.
Да, можно еще один пример привести. Предположим, компании нужно распознавать большое количество документов. Можно попытаться развернуть OCR, и это будет стоить денег (развертывание, поддержка, настройка, дообучение модели, поиск вендора). Второй вариант — проанализировать бизнес-процесс и понять, где у тебя больше всего «западает». Может оказаться, что проблема не с заведением документов, а с их проверкой. И можно тот же OCR заменить на специальные бланки с автопроверкой, которые будет заполнять человек. И это повысит точность на 33%, например. В итоге OCR тебе не нужен: ты решил бизнес-проблему и можешь двигаться дальше.
Все, что связано с ИИ: языковые модели, распознавание, видеоаналитика, — инструменты. Если компания действительно может с помощью них заработать, то это и есть применение.
Чем дальше человек от технологии, тем больше у него мифов и ложных ожиданий. Первый классический миф — что это суперистория, которая решит все проблемы, некий «Скайнет». Второй — что нас всех заменят роботы.
Всесильность ИИ и ненужность людей — два самых распространенных мифа.
Если исходить из консенсусной точки зрения, то, скорее всего, в будущем увеличится разрыв между людьми с разным уровнем знаний. Интеграция решений на базе ИИ уменьшит количество людей со средним уровнем знаний — просто потому, что их работу сможет сделать слабый сотрудник с помощью ИИ. Это может быть, например, написание кода или управление автомобилем. В целом макроэкономика двигается в этом направлении.
Вторая история — автоматизация. Если мы понимаем, что какую-то отрасль можно дешево оптимизировать с помощью технологий, то, скорее всего, на какой-то дистанции она будет оптимизирована. В этом плане мы больше всего продвинулись в беспилотных автомобилях, но на улицах они массово не ездят. Это вопрос не к технологии, а, например, к правовому полю: если автопилот причинит вред человеку, кто за это будет отвечать? Пока государство и компании не ответят на этот вопрос, технология использоваться не будет. Как следствие, водители общественного транспорта и такси не будут заменены. В ближайшее время мы увидим оптимизацию профессий, которые уже почти оптимизированы. Будет меньше участия человека в том же управлении автомобилем — по аналогии с машинистом электропоезда, который следит за тем, чтобы все шло по расписанию.
Полной замены не будет. Человек будет необходим для работы с этими технологиями. Цена ошибки во многих ситуациях настолько высока, что нужен человек.
Плюс сами технологии не всегда могут человека заменить. Даже творчество доступно тем же нейросетям весьма условно.
У нас есть система CoPilot Х5, которая помогает людям, не инженерам и не айтишникам, получить легальный опыт взаимодействия с технологией. Речь про языковые модели. Например, копирайтер может обратиться к программе и попросить помочь ему вычитать текст либо что-то придумать.
Мы используем внутренние LLM-сети, YandexGPT, GigaChat, ChatGPT. Например, если вопрос сотрудника содержит коммерческую тайну, то это не должно уйти за пределы компании, поэтому запрос обрабатывают наши внутренние языковые модели.
Это веб-интерфейс, стандартное окно чата. Правая половина — сам чат, левая — настройки с набором промтов. Модели переключаются в зависимости от задачи. Ты не можешь отправить запрос не туда, потому что существуют требования безопасности. В общем, есть промт-пресеты, а сама система подбирает языковую модель, отталкиваясь от запроса. Для человека опыт бесшовный.
Да, Copilot, только для неайтишников.
Мы идем к тому, что у каждого направления свои промты. Фактически это самые часто исполняемые действия. У инженеров по большей части промтов нет, потому что они обычно понимают, что хотят получить. Мы здесь как раз решаем вопрос демократизации технологии — чтобы чат-ботом пользовалось большее количество людей.
Исторически так сложилось, что с помощью AB-тестирования мы оцениваем бóльшую часть инвестиционных инициатив. Сейчас мы разрабатываем систему оценки технологических интеграций. Скорее всего, речь об экономии трудочасов и пенетрации технологии (сколько людей пользуются ею, с какой частотой, насколько эффективно). Допустим, мы разработали десять промтов для HR, с помощью которых можно быстро написать ответное письмо, задать ключевые вопросы на основе резюме и так далее. Предположим, это ускоряет сотрудника на 30%. Нужно ли нам делать что-то дальше или хватит? Это нам предстоит узнать.
То есть мы даем людям платформу, для себя определяем метрики и решаем, какая из вертикалей ею больше пользуется и в какое направление лучше вкладываться. Потому что технология в итоге должна решать какую-то задачу, не только веселить людей.
Это была первая история — демократизация технологии. Для нас она важна и с точки зрения покрытия, и с точки зрения небольших эффектов. Это то, с чего мы начинали: 3% ускорения работы 10 тыс. человек дает эффект гораздо более мощный, чем исключение одной какой-то специальности из поля деятельности.
Вторая история более технологичная: мы разрабатываем бизнес-платформу с AI-инструментами.
У нас большое количество продуктов внутри компании, они разные: прогнозирование, взаимодействие с пользователями, логистика. Мы говорим: «Ребята, если вы где-то внутри своего продукта хотите использовать компьютерное зрение, распознавание образов, работу с языковыми моделями в любой конфигурации — например, хотите, чтобы на вашем портале поставщика категорийный менеджер имел возможность у чат-бота что-то уточнить, — то вам не нужно внутри себя разворачивать отдельное решение, поднимать сеть, инфраструктуру, договариваться с отделом информационной безопасности. Вы по API стучитесь к этой AI-платформе, в зависимости от задачи получаете подходящую языковую модель и быстрый результат внутри своего продукта». То есть продуктовой команде не нужно изучать все языковые модели, их обновления, переключаться на наем и разработку.
Да, это внутреннее B2B-решение. В X5 более 3 тыс. человек работают с данными. Это прогнозирование спроса, оптимизация промо, персонализация покупательского опыта. Ландшафт инструментов и подходов к работе с данными эволюционирует, появляются большие языковые модели, новые инструменты требуют специфических знаний, специалистов, отдельной инфраструктуры. Мы эти вопросы закрываем, предлагая готовое решение.
Внутри компании более 50 продуктов плюс проекты, плюс у каждой сети есть своя специфика. Все понимают пользу от использования больших языковых моделей или компьютерного зрения. Мы значительно облегчаем их внедрение за счет внутренней AI-платформы.
Их много: чат-бот, OCR, компьютерное зрение.
Классика жанра — приложение для массового подбора персонала, которое помогает директору магазина быстро нанимать людей. Допустим, те, кто его разрабатывает, хотят внедрить распознавание документов, чтобы облегчить учет и проверку новых людей — чтобы директор мог просто сфотографировать документы кандидата и отправить их в нужный департамент. Продукт тот же, бизнес-процесс тот же, но мы хотим усилиться. По классической схеме они идут в R&D и думают, кто может для них сделать это решение. Нужно найти подрядчика или нанять под этот блок новых людей, создать для них инфраструктуру — ты просто «отращиваешь» кусок продукта. Становится понятно, что эта небольшая оптимизация на 3–5% не оправдывает количество потраченных на нее денег. Мы предлагаем альтернативу — API. Вот обвязка, стучитесь — и вы получите результат.
Так же как мы ускоряем компанию за счет копайлотов на уровне обычных специалистов, мы хотим ускорить разрабатываемые внутри X5 продукты.
Третья история — измерения и сравнения. О ней мы уже говорили. Мы разрабатываем метрики, с помощью которых сможем оценивать эффективность внедрения решений на базе ИИ. Это математическая, даже больше творческая задача — увидеть, что с чем связано, проследить корреляцию, доказать эту корреляцию и понять, как мы это можем измерять отдельно от общих действий компаний. Чтобы не было так, что компания растет на 3% в год и ты говоришь: «Видите, как ИИ работает», а рядом стоят грустные категорийные менеджеры, которые тебе обеспечили более выгодную цену. Отделять эффект важно, чтобы понять, есть ли смысл в это инвестировать.
В общем, здесь три направления: демократизация технологии, платформа для внутренних продуктовых IT-команд и измерение эффективности внедрения технологических инструментов.
Одна из основных проблем ИИ — это промышленная эксплуатация. На конференциях часто говорят про успешное внедрение. Но я, мягко говоря, мало знаю примеров хорошей промышленной эксплуатации ИИ, именно большой. Один из них — кол-центры, но роботы звонили людям и раньше.
Пока неочевидно, есть ли от этого эффект. Допустим, юрист хочет понять с помощью чат-бота различия между старым законом и новым в рамках конкретного дела. У него есть два варианта: обратиться к языковой модели внутри компании, заточенной под этот кейс, или использовать мощный мультиинструмент, который, если нужно, может дать ответ в стихах. Первое решение не сможет тебе ответить в стихах, как второе, но покрасить красным определенные места в законе — покрасит. Возникает вопрос, оправдана ли инвестиция в многофункциональность, в том числе человечность. Мы как раз хотим это определить.
Копайлот мы тестируем девять месяцев. За это время им воспользовались несколько тысяч человек в компании. В среднем к чат-боту обращаются до 1 тыс. уникальных пользователей в месяц. У нас к тому же есть внутреннее сообщество в Telegram Ai Run, в котором больше 700 участников. Сейчас мы общаемся с отраслевыми подразделениями, чтобы делать решения конкретно под HR, маркетинг, транспорт и другие направления.
AI-платформа в разработке. В нее уже подключены языковые модели. Сейчас реализуется несколько кейсов. Первый — это усиление команды поддержки, чтобы она получала точные и мгновенные ответы по существующей базе знаний. Второй кейс — обработка, редактирование и саммаризация документов. Третий — OCR, распознавание текстов разных видов, в том числе этикеток на продуктах.
Третье направление — измерение — в проторазработке, потому что мы опираемся на те кейсы, которые только-только реализуются. Есть классическая система оценки через AB-тестирование. Она тоже подходит, но нам опять же интересен не результирующий эффект — сработало или не сработало, а как это влияет в принципе на бизнес-процессы в компании. Поэтому мы и разрабатываем кастомную оценку.
В 2020 году мы пробовали внедрить видеоаналитику. У нас была хорошо обученная нейросеть. Работали с классической проблемой — пустыми местами на полке: камеры их распознавали и давали сигнал, что нужно вынести продукты.
Во время тестов мы столкнулись с тем, что не везде есть необходимая скорость интернета — значит, нужно разворачивать сервера на разных точках, чтобы ее поддерживать. Во-вторых, это все нужно обслуживать. Третья проблема — зоопарк устройств, с которыми приходится работать, потому что, закупая их, менеджер не думает, как они будут взаимодействовать в одной системе, а ориентируется на цену и базовые функции. Четвертая проблема — огромное количество магазинов. В общем, камеры нужно докупить, сервера — докупить, потом — держать дежурную смену, а еще уборщица может случайно сдвинуть камеру шваброй. Как следствие, мы не смогли добиться кумулятивного эффекта, затраты на разработку самой модели были меньше сопутствующих, и мы отказались от массового внедрения.
Решили проблему по-другому — менее точно, но достаточно изящно. Условно, у тебя за один час продается 1 кг бананов. Если у тебя два часа бананы не продаются, значит, с высокой долей вероятности их нужно вынести и положить на полку. Да, решение не всегда срабатывает. Но стоимость и скорость его внедрения побеждают видеоаналитику с разгромным счетом.
Сделать можно все что угодно. Вопрос один: выгоднее ли это, чем посадить человека на кассу? Допустим, час его работы стоит $10. Представь, сколько стоит поддерживать всю IT-инфраструктуру магазинов без касс: датчики, интернет, техническую команду.
Пока экономически выигрывает человек, будет работать человек. Здесь мы возвращаемся к вопросу, заменят ли технологии людей. Нет, не заменят.
Пока есть страны, в которых люди за $4 в час готовы шить обувь, компании будут работать с ними, а не внедрять роботов-швей.
В компании — нет. На рынке труда сейчас нехватка кадров. Поэтому мы рассматриваем ИИ как способ создавать бóльшую ценность с тем же количеством людей в штате. Мы рутинизируем какие-то процессы и отдаем их на аутсорс ИИ. Здесь больше фокуса на труде, который люди делают лучше, чем роботы.
Это опять же то, о чем мы говорили в начале. Сокращают средний слой. Возьмем, например, сценаристов. У тебя есть дешевые работники, которые с помощью языковых моделей теперь могут выдавать средний результат. Середняку ты платил $20 в час, а дешевому платишь $2 плюс $3 за подписку на ChatGPT. И есть те, кто пишет шедевры: они стоят $100 в час и результат соответствующий. Большая часть массовых сокращений, по крайней мере в IT, как раз про это.
Платформенные решения не распространены. По крайней мере, я не знаю примеров их массовой реализации в ретейле. Мы недавно подавались на премию CDO/CDTO Awards и не увидели ни у кого AI-платформы. В русскоязычном сегменте интернета примеров тоже не встречали, в ретейле точно.
Копайлоты, думаю, общий тренд. Вопрос в том, как это будет реализовано и в каком виде.
Создать отдельные метрики, которые будут биться со стратегией компании, — точно не уникальная история, потому что ретейл традиционно цифровизирован и хорошо считает деньги.
В целом это речевые технологии (голосовой помощник), распознавание с помощью видео и языковые модели — три вещи, с которых чаще всего начинаются эксперименты.
Ответ на вопрос сильно зависит от их доступности. Если у нас не будет доступа к вычислительным мощностям, если они будут стоить дорого, то ретейл не поменяется. Поэтому первое, что должно произойти, — это демократизация технологий. Мы увидим в массовом сегменте то, что было раньше в R&D и небольших магазинах. Классический пример — электронные чернила. Мы только сейчас начали их применять, хотя технология существует давно. Просто сейчас это стало экономически целесообразно: они не стоят как крыло боинга и мы можем себе позволить, не теряя в эффективности, массово применять электронные ценники.
Есть другой пример: последние несколько лет я встречаю раз в квартал стартап, который делает электронную примерку вещей. Раньше это стоило дорого, сейчас уже может массово применяться (те же 3D-сканеры есть в iPhone).
В общем, в следующие пять лет мы увидим реализацию того, что нам сейчас кажется чем-то запредельным.
В долгосрочной перспективе многое зависит от того, насколько продвинутся языковые модели в своих возможностях. Мы где-то остановимся, поймем, как их применять, — появится законодательная база (сейчас она малоразвита), и это повлияет на следующие пять лет.
Текст: Джейхун Мамедов