Что послушать по дороге на работу, какие видео посмотреть за обедом и что почитать перед сном — все это сегодня нам подсказывают рекомендательные алгоритмы. Есть даже мнение, что наши девайсы теперь знают нас лучше, чем мы сами. Как это им удается — в подробном разборе SM.
«Музыкальные» алгоритмы работают, анализируя поведение пользователя и сами песни. Система непрерывно обучается и должна уметь менять рекомендации после каждого прослушанного или пропущенного трека, чтобы успевать за настроением и предпочтением слушателя. Мы выбрали для разбора три сервиса: Spotify как самый популярный сервис в мире, лидирующую в России «Яндекс Музыку» и YouTube Music с долей пользователей почти 40% (от всех слушающих музыку в стране).
Говорят, что у Spotify идеальные рекомендации. Но так было не всегда. Изначально на платформе работал пользовательский механизм «Совместная фильтрация»: большая аудитория собирала треки в плейлисты, и эти песни хорошо сочетались. Дальше алгоритмы вычисляли, насколько две дорожки похожи математически. Однако они не понимали, какое настроение у музыки, — только то, как часто один трек оказывается рядом с другим.
В 2014 году Spotify купил стартап The Echo Nest, разработавший алгоритмы машинного обучения, распознающие музыку наравне с человеком. Система изучает описания музыки, сканируя блоги и информацию в интернете, и таким образом выявляет связь между исполнителями и тем, как их описывают.
Через год после сделки с Echo на Spotify появился персонализированный плейлист Discover Weekly, который есть до сих пор. Он собран на основе совместной фильтрации, анализа аудиофайла и описаний.
К пропускам треков у Spotify особое отношение. В 2015 году тогдашний топ-менеджер сервиса говорил, что пропуск трека до 30 сек соответствует дизлайку. Но есть и другие подходы.
В «Яндекс Музыке» пропуск трека определяют не так однозначно. Это объясняется тем, что можно пропустить даже любимую песню, если она не попадает в настроение или поднадоела. Помимо очевидных лайков и дизлайков, алгоритмам «Яндекса» нужны полутона. Они анализируют пропуск треков в подборках, радио и альбомах, внесение новых песен в плейлисты. Этим действиям присваивается положительное или отрицательное значение: например, прослушивание и сохранение в плейлист означают, что пользователь доволен. К этому «примешиваются» алгоритмы коллаборативной фильтрации (как и у Spotify). Например, если человек прослушает альбом Led Zeppelin II, то ему предложат включить музыку, которую выбирали другие слушатели этого альбома.
«Яндекс Музыка», как все тот же Spotify, с помощью алгоритмов разбирает треки по косточкам: спектрограмму, распределение звуковых частот, бит, ритм, тембр голоса исполнителя, жанр и другие параметры. Так алгоритмы улавливают «настроение» трека и могут найти для слушателей похожую музыку.
За финальный результат, который пользователь видит у себя в приложении, отвечает Catboost. Этот метод машинного обучения умеет строить длинную и сложную формулу ранжирования, учитывает множество различных факторов и их комбинаций (количество прослушиваний треков, зависимость предпочтений от времени суток). Catboost обрабатывает список всех возможных рекомендаций, которые составила система прогнозирования и которые алгоритм нашел по другим источникам (например, новые потенциально интересные релизы), и выдает готовый плейлист.
На днях сервис добавил новый инструмент — глубокие нейросети, которые могут предсказывать будущие предпочтения пользователя (работает в режиме «Моя волна»). Прогноз составляется с помощью истории прослушиваний — последовательности треков. В компании утверждают, что это поможет находить втрое больше подходящей музыки по сравнению с самостоятельным поиском.
Для YouTube Music, помимо пальцев вверх и вниз, важны пассивные сигналы: добавление трека в библиотеку, повторные прослушивания песни, продолжительность прослушивания. Эти факторы помогают алгоритму формировать «профиль вкуса». При этом то, что пользователи вначале указывают как любимое, алгоритм воспринимает с осторожностью. Исполнитель может нравиться человеку из-за пары песен, но это не значит, что он должен доминировать во всех рекомендациях. Гораздо больше внимания уделяется не изначальному выбору, а прослушиванию отдельных песен и плейлистов.
Пропуск треков в YouTube Music так же мало влияет на рекомендации. Представители сервиса объясняют это феноменом rage skipping — когда пользователь много раз подряд пропускает песни. Можно было бы подумать, что слушателю просто не нравятся треки, но исследования YouTube Music показали, что люди это делают, чтобы изучить плейлист. Если присвоить этому действию негативную оценку, то алгоритм может начать предлагать «неправильные» треки.
И все же приоритетом для всех алгоритмов в музыке остаются прослушивания: чем их больше, тем точнее рекомендации.
{{quote1}}
В YouTube Music говорят, что алгоритм не может запустить нового исполнителя. В таких случаях сервис работает с «меломанами и музыкальными экспертами», получает информацию от партнеров и из поисковых запросов самого YouTube.
Александр Ульянов отмечает, что для новых музыкантов у сервисов есть разные механики — например, выбор музыкальных редакторов самого стриминга. У «Звука» есть еще приложение для начинающих артистов «Студио», через которое пополняется редакторский плейлист «Громче». Вместе с этим работают механики, основанные на данных самих треков новичков: алгоритмы анализируют их и подбирают похожих исполнителей.
Сейчас соцсети стараются быть более открытыми. Например, VK подробно рассказывает о работе рекомендательных алгоритмов (в первую очередь для авторов и администраторов групп), а X (бывший Twitter) и вовсе выложил свой исходный код на GitHub. И у той и у другой соцсети основной сигнал для алгоритмов формируется из того, как пользователь взаимодействует с контентом. При этом VK применяет много разных правил, а X практикует трехэтапный подход. VK — наиболее популярная соцсеть в России: по версии Mediascope она охватывает 85% всей аудитории рунета (87,5 млн пользователей ежемесячно). В то же время X — третья по популярности соцсеть во всем мире.
В ленте VK охваты поста ниже; если пользователи явно протестуют — оставляют отметки «Это не интересно», скрывают новости и жалуются на запись. На охват также влияет процесс и результат чтения: раскрывают ли полностью текст поста, дочитывают ли его до конца, переходят ли по ссылке в нем, делятся ли им с друзьями. К примеру, если человек любит читать длинные посты, то в рекомендациях у него их окажется много — и наоборот.
По правилам соцсети посты, которые активно комментируют, оказываются в верхней части ленты. Туда же попадает уникальный авторский контент, которого нет в других сообществах, а также свежие публикации. Посты со ссылками на сторонние ресурсы в ленте опускаются.
При этом в VK можно отрегулировать ленту и попросить показывать в первую очередь только новые записи или наиболее интересные.
{{quote2}}
В соцсети X на первом этапе происходит подбор лучших твитов из подписок и аккаунтов, на которые пользователь не подписан. В ленте твиты этих двух групп представлены поровну. Анализ данных, собранных по прошлым взаимодействиям пользователя, позволяет отсортировать по релевантности твиты из первой группы и предсказать вероятность взаимодействия с ними.
Отбор второй группы твитов устроен сложнее, так как лежит вне зоны видимых интересов человека. Специальные модели анализируют лайки пользователей, на которых он подписан, а также лайки аудитории с похожими предпочтениями. Вдобавок алгоритм составляет численный образ интересов пользователей и содержимого твитов, чтобы проанализировать сходство людей, твитов и связок человек-твит.
На втором этапе топовые твиты ранжирует нейросеть с 48 млн параметров. Твиты получают оценки вероятности взаимодействия и выстраиваются в рейтинг. При этом публикации с ошибками и опечатками отбраковываются. В ранжирование также включена система оценки репутации аккаунтов Tweepcred (от 0 до 100). Пользователи с оценкой выше 65 будут получать охват всех твитов, а для остальных действует ограничение — три твита в день.
На третьем этапе X отсеивает уже просмотренный контент и посты заблокированных пользователей. За финальный вид ленты отвечает инструмент Home Mixer: он суммирует все этапы, источники лучших твитов, фильтры, репутацию аккаунтов.
Несмотря на выстроенность этой системы, алгоритмы X могут сильно поменяться: Илон Маск анонсировал большое обновление.
70% роликов, которые смотрят пользователи крупнейшего видеохостинга YouTube, подобраны «машиной». К этому сервис пришел не сразу. Раньше в ленте лидировали видео с наибольшим количеством просмотров или кликов, что привело к кликбейтным названиям и превью. После этого сервис решил учитывать время, потраченное на просмотр, и время, проведенное на платформе. В 2015 году YouTube к тому же начал измерять удовлетворенность зрителей с помощью опросов, а его алгоритмы — учитывать лайки, репосты и нажатия на кнопку «Не интересно».
Сейчас каждый пользователь YouTube получает уникальные рекомендации. Они основаны на том, какие видео он отметил лайком и комментарием, что искал на платформе, на какие каналы подписан, что смотрели другие пользователи, видевшие тот же ролик. Алгоритмы также учитывают часовой пояс и язык. При этом содержание видео не имеет значения (если оно не нарушает правил площадки).
Рекомендации под просматриваемым в моменте видео строятся в соответствии с историей просмотров. На «Главной» — тоже, но здесь еще имеет значение «производительность» видео. Она определяется количеством и временем просмотров, количеством лайков и дизлайков, количеством подписчиков и вовлеченностью зрителей (комментариями).
{{quote3}}
На YouTube Shorts работает все то же самое, но есть дополнения. Алгоритм отбирает несколько сотен видео из всей базы данных. Контент, связанный с предпочтениями пользователей, «разбавляется» в целом вирусными видео. Затем нейросеть все это ранжирует: лента перестраивается с учетом истории просмотров пользователя, поведения, ожидаемого времени просмотра, языка и других параметров.
Шортсы более виральны, объясняет Диденок. Поэтому за счет коротких нарезок блогеры продвигают основные видео.
При поиске в Shorts (некоторые предпочитают искать, а не листать) алгоритм учитывает релевантность: соответствуют ли заголовок, теги, описание видео поисковому запросу. Важна вовлеченность (лайки и комментарии), история просмотров человека и похожий контент — какие короткие ролики смотрят люди со схожими интересами.
В одной только России ежедневно выходит около 50 тыс. новостей. Весь этот поток нужно фильтровать и доставлять пользователям. Один из самых популярных зарубежных агрегаторов по версии западных СМИ — Google News. По идее, сервис облегчает получение информации и развивает здоровую экосистему новостей.
Алгоритм Google News заточен не столько под персонализацию, сколько под качество и актуальность контента. Он учитывает ряд факторов: содержание сайта, объем материала, ключевые слова, метатеги страниц, наличие мобильной версии. Также на ранжирование влияют внешние факторы: шеры и лайки в соцсетях, количество подписчиков и цитирований в соцсетях. Наконец, алгоритм, просматривая контент, ищет индикаторы качества: количество кликов, релевантность истории текущему географическому положению читателя, свежесть новости. Для поиска материалов Google News недавно ввел критерий «авторитет источника»: алгоритм учитывает количество обращений к ресурсу в рамках темы с учетом местоположения, наличие оригинальных публикаций в нем, эксклюзивной информации и другие атрибуты.
На главной Google News есть раздел Top stories, в который стремится попасть большинство СМИ. Для него используется отдельный алгоритм. Здесь предпочтение давно отдано авторитетным изданиям вроде CNN и BBC, поэтому в топе скорее окажется их материал, чем статья с малоизвестного портала. При этом раздел могут менять сами пользователи, если будут активно «гуглить» вирусное событие. После этого новости о нем, скорее всего, выйдут в топ.
Контентная платформа «Дзен» ориентирована на тематические интересы. В пресс-службе сервиса сообщили, что ежедневно им пользуется 31 млн человек, из которых более 100 тыс. — активные авторы.
В правилах применения рекомендательных технологий пишут, что за рекомендации в «Дзене» отвечает ПО, которое с помощью ИИ категоризирует предпочтения пользователей и ранжирует публикации (в зависимости от предпочтений). Интересы определяются опять же на основе поведения пользователя.
Здесь все как с музыкой: чем чаще и активнее человек читает и смотрит контент, тем точнее становятся рекомендации.
Набор алгоритмов «Дзена» учитывает подписки пользователя, категории понравившихся ему материалов, количество его обращений к публикациям и общие сведения о предпочтениях пользователей на этой территории. На результат также могут повлиять нажатия на кнопки «скрыть все публикации канала» и «пожаловаться».
Алгоритмы платформы учитывают взаимодействия со всеми форматами сразу. Если пользователю понравилась конкретная статья, рекомендательная система предложит не только тексты на эту же тематику, но и видео.
Рекомендательные алгоритмы отбирают каждую публикацию для ленты пользователя из почти 5 млн возможных вариантов. Главная «Дзена» перестраивается динамически в зависимости от интересов и взаимодействия с контентом и форматами. Если пользователь чаще смотрит длинные видео, раздел с ними отобразится первым, рассказали в пресс-службе «Дзена».
{{quote4}}
В основе рекомендаций лежат модели, работающие на истории пользователя и его поведении в прошлом. Мы анализируем прослушивания, и для этого важен их объем. Это неразрывно связано с большими данными, а поскольку их очень много, то сигнал затухает, когда вы смотрите только в прошлое. Проще говоря, свежие данные — это сильный сигнал, старые данные — сигнал слабее. Появляется новая музыка, вкусы пользователя развиваются, меняется он сам: многие с нами взрослеют в прямом смысле этого слова. И если пользователь слушает меньше, то рекомендации будут ухудшаться.
На формирование умной ленты влияет не только поведение пользователя, но и приоритеты самой соцсети. Недавно мы в LiveDune проводили исследование, в котором выяснили, что похожие посты в схожих группах в VK могут получить разные охваты в зависимости от того, используются ли там ссылки и на какой сервис, внутренний или внешний, залито видео. Выяснилось, например, что, если вам показали видео, вполне может быть, что конкретно вы для этого ничего не сделали — просто социальной сети нужно продвинуть свой видеохостинг. По нашим данным, посты VK с видео, которые загружены в саму соцсеть, собирали на треть больше охватов, чем посты в таких же сообществах, но с видео на YouTube.
Алгоритмы YouTube сейчас самые понятные и эффективные (наряду с TikTok). Например, популярность видео прямо связана с пользовательскими действиями, и блогер понимает, что делать, чтобы попасть в рекомендации, — создать обложку видео, на которую будут больше кликать, удерживать аудиторию во время просмотра, просить ее ставить лайки и оставлять комментарии. К тому же на YouTube настолько подробная аналитика, что можно превратить творческий процесс в понятные бизнес-механизмы, которые будут работать на ваш канал.
Отдельные алгоритмы работают в разделе «Новости». Пользователь видит список заголовков, который появляется из топа инфоповодов.
Алгоритмы отбирают топ, основываясь на количестве сообщений, динамике сообщений сюжета. Сюжет включает сообщения об одном событии за последние три дня. Важную роль играет и влияние связанных с новостью сюжетов, весомость СМИ.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.