В январе 2025 года китайские разработчики представили языковую модель DeepSeek R1. Через две недели после релиза ее мобильную версию скачали больше 10 млн раз — приложение попало в топы App Store и Google Play, в том числе в России. Рассказываем, почему DeepSeek вызвала такую реакцию, какие у модели слабые стороны и как она меняет ИИ-ландшафт.
DeepSeek — это новая языковая модель, разработанная одноименным китайским стартапом. Одна из ее особенностей в том, что, работая с запросом, она не активирует одновременно все свои параметры, а запускает только тот набор компонентов нейросети, который лучше всего соответствует задаче. Благодаря этому вычислительные затраты ниже, а скорость ответов выше.
Архитектура модели позволяет также минимизировать количество «галлюцинаций» — неверных ответов нейросети. Для этого она использует несколько инструментов верификации: это многократная проверка фактов как во внешних базах данных, так и внутри самой модели. К тому же благодаря технологии DeepThink пользователи могут наблюдать за рассуждениями нейросети, чтобы лучше понять логику и внутреннюю структуру сгенерированного ответа. ChatGPT, в свою очередь, быстрее отвечает на запрос, что иногда приводит к неточным или неполным ответам, а рассуждения показывает в укороченной версии, в отличие от подробной цепочки DeepSeek.
{{quote1}}
Еще одна важная особенность DeepSeek — ее открытый исходный код. Так, любой разработчик может бесплатно им воспользоваться и модифицировать его под свои нужды. Это удобно для российских компаний, которые сталкиваются с ограничениями зарубежных продуктов.
{{quote2}}
По мнению Себранта, новая бесплатная модель поставила под сомнение многомиллиардные суммы, которые в 2024 году обсуждались в контексте развития ИИ. Более того, как инвесторы, так и политики последовательно недооценили роль Open Source: открытый исходный код сделал DeepSeek общедоступным и удобным инструментом, говорит эксперт.
{{slider-gallery}}
Сооснователь и CEO онлайн-университета Zerocoder Кирилл Пшинник обращает внимание на четыре особенности DeepSeek.
Архитектура Mixture-of-Experts (MoE): модель активирует лишь часть своих 671 млрд параметров, которая необходима для конкретного запроса (обычно около 37 млрд). Каждый параметр представляет собой часть обученной модели, которая помогает распознавать закономерности и связи в данных. Это значительно снижает затраты на вычисления и ускоряет процесс генерации ответа.
Многоголовое скрытое внимание (MLA) — технология обработки информации, при которой модель одновременно анализирует несколько аспектов данных (например, различные части текста). Такая параллельная обработка позволяет ускорить извлечение информации и повысить эффективность работы.
Многотокеновое предсказание (MTP) — метод, при котором модель генерирует несколько токенов (единиц текста) одновременно. Это позволяет ускорить процесс генерации ответов, так как модель не ограничивается поочередным предсказанием каждого отдельного слова или символа.
Глубокий семантический анализ: в отличие от большинства систем, работающих по принципу совпадения ключевых слов, DeepSeek способна выявлять скрытые взаимосвязи между понятиями и учитывать контекст при формировании ответа. Модель анализирует смысл слов с помощью сложных алгоритмов, которые обучаются на огромных объемах текста. Это позволяет DeepSeek распознавать, например, синонимы и ассоциации.
{{slider-gallery}}
Эти особенности позволяют DeepSeek не только конкурировать с западными моделями, но и задавать новые стандарты в области обработки естественного языка, утверждает эксперт. Модель способна обрабатывать и анализировать информацию с гораздо большей точностью. Для корпоративного сектора, который требует большей надежности и масштабируемости, это особенно важно.
Для обучения DeepSeek используются чипы малоизвестных производителей — более дешевые и не такие продвинутые, как у Nvidia. Поэтому себестоимость обучения модели в десятки раз ниже, чем у OpenAI, говорит Пшинник.
{{quote3}}
Вскоре после выхода DeepSeek Microsoft, крупнейший акционер OpenAI, заподозрил китайских разработчиков в том, что они использовали интеллектуальную собственность ChatGPT. По данным компании, осенью 2024 года лица, связанные с DeepSeek, вывели большой объем данных американской нейросети через интерфейс прикладного программирования (API). По словам куратора ИИ и криптовалют Белого дома Дэвида Сакса, есть «существенные доказательства» того, что разработчики DeepSeek извлекли знания из моделей OpenAI. Аналогичные обвинения высказывал и кандидат в главы Минторга США Говард Латник.
В конце января в Telegram-каналах появились скриншоты, в которых DeepSeek идентифицирует себя как YandexGPT. В пресс-службе «Яндекса» объяснили эту ошибку тем, что в датасет китайской модели могли попасть данные из интернета, связанные с технологиями российской компании. «Поэтому, когда модель генерирует ответ, она может случайным образом воспроизвести информацию, относящуюся к „Яндексу“, в том числе ошибочно утверждая, что она является YandexGPT», — заявили в компании.
{{slider-gallery}}
У DeepSeek есть и слабые стороны.
Нестабильность при высоких нагрузках. Из-за резкого роста популярности нейросеть иногда не справляется с большим количеством запросов. 6 февраля компания сообщила, что из-за нагрузки на сервер временно приостанавливает пополнение счета для оплаты доступа к API.
Цензурирование ответов. Ответы на политически чувствительные темы могут быть неполными. Например, на вопрос о принадлежности Тайваня на русском языке нейросеть отвечает нейтрально, формулируя разные точки зрения; при запросе на китайском ответ более строгий. «Не стоит забывать, что DeepSeek разработан в стране, где существуют строгие политические и социальные нравы», — объясняет Кирилл Пшинник.
Риск злоупотребления открытым кодом. Сильная сторона DeepSeek одновременно и ее слабость. По словам Пшинника, из-за открытого кода к R1 могут присоединиться недобросовестные компании, заинтересованные в создании мошеннических схем и генерации вредоносных программ.
Появление DeepSeek влияет на текущий ландшафт технологий искусственного интеллекта. Как отмечают эксперты, открытость кода и доступность модели могут стать катализатором для массового внедрения подобных решений в различных секторах экономики.
{{quote4}}
{{slider-gallery}}
Внедрение и развитие DeepSeek могут привести к значительным изменениям в распределении ресурсов, повышению эффективности и снижению стоимости технологий ИИ. Эксперты прогнозируют, что уже в ближайшие годы многие ИИ-стартапы перейдут на модели с открытым кодом, что приведет к более жесткой конкуренции и дальнейшему удешевлению технологий. Кроме того, эта «открытость» будет способствовать быстрому обмену знаниями между исследовательскими центрами и компаниями. Такое взаимодействие — залог ускорения инновационного процесса.
{{quote5}}
DeepSeek фокусируется на практической полезности — автоматизации отчетности, аналитики и R&D с измеримым влиянием на бизнес-метрики. Резонанс подкреплен не маркетингом, а нишевой интеграцией в сектора, где точность и воспроизводимость критичны (например, финансы, медицина), а также экономией ресурсов. Это эволюционный шаг, который заполнил пробел между «универсальным чат-ботом» и инструментом для повышения прибыли, что объясняет его быстрое внедрение в бизнес-среде.
Специалистам DeepSeek давно и хорошо известен как мощный игрок. Версия V3 вышла еще в декабре прошлого года и вызвала большой интерес и обсуждения в профессиональных кругах, но не породила никакой паники инвесторов и бурной реакции политиков. Но когда версия R1 побила распиаренную o1 от OpenAI (в январе 2025 года. — SM), все всполошились. И во многом потому, что, как и предыдущие версии, R1 была опубликована во всех подробностях и с очень мягкой лицензией, допускающей ее свободное использование в любых целях, в том числе коммерческих.
Например, для обучения DeepSeek-V3 потребовалось $6 млн, Claude 3.5 — более $10 млн, GPT 4o — еще больше. Можно сказать, что мы получили спорткар по цене велосипеда, а в интернете опубликована подробная инструкция, как собрать этот велосипед в гараже.
DeepSeek очень доходчиво напомнил: развитие бывает не только экстенсивным («дайте больше вычислительных мощностей»), но и интенсивным («давайте тщательно оптимизируем все возможное в уже имеющихся архитектурах — вдруг они станут менее прожорливыми»). Это вообще полезно для бизнеса — не только тратиться на масштаб, но и выжимать максимум из имеющегося. И DeepSeek наглядно показал, что такая оптимизация работает.
Сейчас трудно оценить все потенциальные изменения на рынке ИИ, но уже понятно, что главный козырь DeepSeek — его открытость и эффективность. Я уверен, что в ближайшем будущем появится больше персонализированных сервисов: от умных помощников до приложений, адаптирующихся под стиль жизни. А далее последует снижение цен на технологии с ИИ, ведь конкуренция растет. Хочется верить, что российские технологии не останутся в догоняющих в этой ИИ-гонке.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.