Искусственный интеллект стал важной частью нашей повседневной жизни, упрощая ее там, где возможно. Еще он помогает ученым — отслеживать популяции краснокнижных животных и разрабатывать лекарства от рака, например. Но кто занимается обучением нейросетей и каким может быть образование в этой сфере? Разбираемся с экспертами Школы анализа данных «Яндекса» и индустрии.
Антону Наумову 26 лет. Он работает в «Яндекс.Технологиях». Его команда участвует в разработке крупнейших в мире русскоязычных лингвистических нейросетей — YaGPT и YaLM. Антон вместе с командой хочет создать универсального помощника, который сможет понимать мир так же, как его понимает человек, вести осмысленный диалог и отвечать на запросы любой сложности.
{{quote1}}
Работу Антона невозможно представить без машинного обучения — одного из направлений искусственного интеллекта, благодаря которому компьютер не просто анализирует данные и находит закономерности, но еще и строит прогнозы, ставит диагнозы, проводит сложные вычисления, генерирует тексты и изображения и даже помогает писать музыку.
ML-специалисты не пишут инструкцию, которой машина должна следовать. Их цель — научить компьютер думать, как человек. Для этого они передают компьютеру данные и строят математические модели для их обработки. Нейросети, о которых только и говорят последний год, — это один из самых трудных алгоритмов машинного обучения.
Чтобы создавать технологии на базе ML, нужно владеть передовыми практиками из IT-индустрии, а также глубоко разбираться в фундаментальной математике и компьютерных науках. Эти знания Антон получил во время учебы: в 2020 году Антон окончил факультет компьютерных наук Высшей школы экономики и поступил в Школу анализа данных «Яндекса».
{{slider-gallery}}
По всему миру сегодня открываются образовательные программы и лаборатории, цель которых — встроить инструменты и методы машинного обучения и технологии ИИ в другие сферы, например в физику, биологию, медицину, гуманитарные науки. Прорывные технологии появляются именно на стыке дисциплин.
Так, на стыке ML и медицины возник проект, в котором выпускники ШАДа участвуют в поиске лекарств от различных заболеваний. Для этого нужны сложные алгоритмы, которые будут анализировать массив биологических данных, строить предсказательные модели и определять ход лабораторных экспериментов. Сегодня такой подход применяется в разработке персонализированной раковой терапии. Эффект от лекарств проверяют на искусственно выращенных органоидах. Зная форму заболевания, можно смоделировать, какой будет реакция человека на тот или иной препарат.
{{quote2}}
Благодаря тому, что уже сегодня ученые делегируют рутинные задачи искусственному интеллекту, они могут заняться более сложными, творческими задачами.
Так, например, студенты ШАД вместе с Yandex Cloud разработали нейросеть, которая помогает ученым на Алтае следить за популяцией краснокнижных снежных барсов. В Сайлюгемском национальном парке установлено 170 фотоловушек. Каждая из них выдает в день до 5 тыс. кадров. Так как камера фиксирует не только движение животных, но и просто колыхание травы, то релевантны из всех кадров только 10–30%. Поэтому у ученых иногда уходили недели, чтобы вручную найти снежных барсов на тысячах фотографий. Сейчас этой задачей занимается нейросеть, которая всего за несколько секунд обрабатывает снимки с фотоловушек и находит на них животных. Теперь специалисты работают над следующим шагом: они хотят обучить нейросеть отличать одного зверя от другого.
{{quote3}}
Благодаря коллаборации ученых и ML-инженеров возникают технологии, которые могут быть полезны людям по всему миру. Яркий пример — нейросеть для экомониторинга Байкала от Yandex Cloud. Разработчики обучили ИИ анализировать пробы воды: определять и классифицировать содержащиеся в ней микроорганизмы. А затем выложили датасеты и модели машинного обучения в открытый доступ. Теперь биологи по всему миру смогут использовать ИИ для разработки собственных систем мониторинга водоемов и отслеживать важные экологические тренды.
{{quote4}}
Без Machine Learning и Data Science сложно представить IT-продукты и сервисы будущего. Чтобы технологии развивались и дальше, необходимы открытия в этих дисциплинах, поэтому некоторые ML-специалисты развивают науку.
Инженер-исследователь Никита Гущин тоже окончил ШАД. Сейчас он учится и работает в Сколтехе в Applied AI Center (Центр прикладного ИИ Сколтеха) и занимается исследованиями в области генеративных моделей. Его научные статьи публиковали на одной из самых значимых международных конференций по машинному обучению NeurIPS.
{{quote5}}
Нейросети улучшают многие сервисы, которыми мы пользуемся каждый день, даже прогноз погоды. Так, например, команда датасайентистов разработала для «Яндекс.Погоды» Meteum 2.0 — первую технологию, алгоритмы которой обучаются на сообщениях от пользователей. Безусловно, она строит прогнозы на основе данных с радаров и спутников и метеорологических моделей. Однако, помимо этого, машинный интеллект учитывает данные от пользователей и оперативно уточняет прогноз. Люди могут подтвердить или опровергнуть информацию о погоде в их районе (например, ответить на вопрос, идет ли сейчас дождь). Благодаря этому человек получает более точный прогноз погоды.
С проникновением нейросетей во все сферы жизни меняется и рынок труда. Спрос на тех, кто умеет работать с нейросетями, растет — в компаниях открывают все новые позиции для таких специалистов. Но если в одних сферах достаточно научиться писать точные промты, то в других требуются хард-скиллы в анализе данных и машинном обучении. Без этого не получится интегрировать технологии ИИ в рабочие процессы эффективно.
Специалистов в ML и DS такого уровня пока еще очень мало. Это сложные технологии, которые еще и быстро развиваются, поэтому требуют глубокого погружения в компьютерные науки и математику. За 16 лет ШАД выпустила всего полторы тысячи специалистов: образование в этой сфере под силу далеко не каждому. Однако тем, кто не сдается и оканчивает ШАД, открываются все карьерные перспективы в науку, бизнес и социальные проекты.
{{quote6}}
Чтобы будущие специалисты в области Machine Learning и Data Science получили качественное фундаментальное образование и смогли применить знания в науке или прикладных проектах, занятия должны отвечать основным запросам современных студентов.
Все современные образовательные программы поддерживают стремление студентов составлять себе расписание самостоятельно и выбирать, какие дисциплины отвечают их интересам и карьерным планам.
{{quote7}}
Поступив в ШАД, Антон Наумов практически сразу стал работать сначала ассистентом в Школе, а потом вырос до преподавателя. Сейчас он продолжает вести занятия и вместе с коллегами пишет курсы. Еще во время учебы Антон оценил, как быстро обновлялись образовательные программы в ШАД: если выходила важная научная статья по теме курса, то уже через полгода или даже через месяц ее интегрировали в занятия.
{{quote8}}
Окружение единомышленников помогает студентам не терять мотивацию даже в самые тяжелые периоды: когда много домашней работы или курсы требуют больше времени, чем обычно. Кроме этого, сокурсники могут делиться опытом работы в разных сферах и помогать друг другу с теми задачами, в которых они хорошо разбираются.
{{quote9}}
Люди, которые разбираются в искусственном интеллекте, машинном обучении, нейросетях и анализе данных, способны вывести проекты из самых разных сфер на новый уровень, поэтому сотрудничать со специалистами по ML и DS полезно даже тем, кто не специализируется на новых технологиях.
Не так важно, преподаете вы физику в школе или работаете с историческими архивами в библиотеке, — в современном мире важно понимать, что такое данные и как с ними работать. Именно на стыке экспертиз могут появляться новые проекты, которые двигают нашу жизнь вперед.
Реклама, ООО «ЯНДЕКС»
Время от времени в истории наступает момент, когда технология меняет общество. Именно это происходит сейчас с нейросетями. Одни нейросети используются для генерации молекул вещества. Другие — для работы со спутниковыми снимками или мозгом человека.
Мы в самом начале этой научно-технической революции, и возможностей развития здесь много.
Например, сейчас наши лингвистические нейросети работают только с текстом. Но в будущем идеальный помощник научится воспринимать любую информацию — даже тактильную.
Даже тем, кто не планирует работать с нейросетями напрямую, нужно все равно понимать, что такое данные и как с ними работать. Не важно, вы программист, аналитик или физик, историк. Это новый способ ведения научных исследований, новый язык современной науки и технологий.
Максимальная синергия возникает, когда человек, хорошо погруженный в тему ИИ, встречается с тем, кто понимает хотя бы чуть-чуть, но глубоко разбирается в другой науке. В этом взаимодействии получаются очень крутые вещи, поэтому таким людям важно сотрудничать и искать новые темы для коллабораций.
Совместные проекты студентов ШАД и Yandex Cloud для ученых можно назвать научно-техническим волонтерством с прикладным результатом.
Стать хорошим специалистом в ML невозможно в отрыве от реальных задач. И здорово, когда студенты и опытные разработчики могут быть причастными к большим добрым историям, польза которых понятна каждому. Это повышает мотивацию развиваться в такой сложной области компьютерных наук и помогает делать мир лучше.
Делегировать рутину нейросетям, автоматизировать процессы там, где это возможно, и высвободить время специалистов на более сложные, творческие вопросы — та ценность, которую мы стараемся привнести в разные профессиональные сообщества. Это тренд, который важно поддерживать.
Результаты наших исследований можно применить в разных областях. На мой взгляд, перспективнее всего их использовать в двух сферах: улучшение качества изображений, которые генерируют нейросети, и моделирование развития клеток. Последнее, в частности, нужно для изучения реакции организма на лекарства. Это может помочь в разработке новых способов лечения.
Я совмещал работу с учебой в «Яндексе», и это было очень непросто. У меня уходило минимум 15 часов в неделю на учебу, не считая самих занятий. Курсы сильно отличались по нагрузке, и где-то требовалось больше времени, а где-то меньше.
В науке происходит переход от поиска универсальных решений к поиску индивидуальных. То же самое относится к образованию. Траекторию обучения в IT сегодня важно и нужно выстраивать так, чтобы она подходила конкретному человеку в конкретных обстоятельствах, помогала ему делать открытия в любом карьерном треке, и регулярно отвечать на вопрос: «Что будет следующим шагом для моего развития? Что я хочу делать потом?» Этот подход мы практикуем в ШАД: у нас есть набор обязательных курсов для обучения в первый год, а дальше студент может самостоятельно выбирать из 50 курсов то, что отвечает именно его целям и интересам.
IT развивается семимильными шагами и почти каждую неделю появляется что-то большое и важное, о чем нужно рассказать студентам. Поэтому программы курсов нельзя заранее составить на год вперед. Уже через несколько недель новые идеи нужно встраивать в занятия и в целом постоянно следить за тем, что происходит в мире технологий.
В хорошем сообществе тебе всегда дадут качественную обратную связь. Ты отрефлексируешь, внедришь изменения и сделаешь шаг вперед, который непременно приведет к успеху. Поэтому мы строим ШАД как открытое сообщество, а не как способ передать только то, что мы уже знаем и умеем.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.