Data Scientist / ML-engineer (NLP) Virtual Assistant solution team

з/п не указана

Требуемый опыт работы: 3–6 лет

Полная занятость, гибкий график

Компания Just AI более 5 лет разрабатывает собственный NLP-провайдер CAILA. Сейчас им пользуется более 250 компаний в облаке и контуре. Ежедневно облачный провайдер обрабатывает более 400 тыс. сообщений в день с пиками до 1k RPS на русском, английском, китайском и португальском языках.

Мы развиваем технологии для создания голосовых ассистентов и ищем в команду нового коллегу - Data Scientist / ML-engineer (NLP), который возьмёт на себя развитие Chit-Chat сервиса.
Chit-Chat обеспечивает общение на свободные темы от имени голосового ассистента, в соответствии с его образом.

Задачи:

  • Разработка моделей для Chit-Chat'a: generative model, retrieving model, ranking model, classifiers и т.д.;
  • Обучение моделей, их валидация, написание сервисов и интерфейсов к разработанным модулям, постановка А/Б тестов;
  • Анализ диалоговых данных, оценка существующих алгоритмов и моделей, разработка предложений по улучшению;
  • Доработка и поддержка библиотек, моделей и алгоритмов по замечаниям лингвистов и пользователей.

Ваши задачи на ближайший год:

  1. Организовать сбор данных для создания Chit-Chat-моделей;
  2. Обучить retrieving модель Chit-Chat'а;
  3. Организовать и провести эксперимент по оценке Chit-Chat'ов с помощью асессоров;
  4. Создать сервис кастомизируемого Chit-Chat'а на основе сценариев и retrieving-модели;
  5. Обучить generative модель Chit-Chat'а.

Мы ожидаем:

  • Разработка deep-learning моделей (1-2 года опыта);
  • Умение писать production-ready код в Python (2-3 года), знание Git, Linux, Docker;
  • Опыт работы с классическим ML алгоритмами и библиотеками (sklearn/scipy/pandas/numpy stack/pytorch/pytorch-lightning/hugging face);
  • Опыт работы с алгоритмами и библиотеками машинного обучения в NLP (с некоторыми из представленных): NLTK, DeepPavlov, Spacy, Gensim, Udpipe;
  • Английский язык и математика в объеме, достаточном для чтения проф литературы.

Будет плюсом:

  • Опыт создания Chit-Chat;
  • Опыт сбора диалоговых данных из открытых источников;
  • Опыт использования инструментов краудсорсинга;
  • Опыт построения моделей глубокого обучения (Transformers, Language Modeling, Sentiment Analysis, Seq2Seq);
  • Опыт применения ML Ops инструментов (Kubernetes, Kuberflow, ML Flow, облачные сервисы GCP, Amazon и т.п.);
  • Опыт программирования на Java/Kotlin.

Мы предлагаем:

  • Интересные проекты, возможность быстрой имплементации результатов исследований в продукты и публикации в научных изданиях;
  • Возможности для профессионального роста и обмена опытом как внутри коллектива, так и в рамках внешнего сотрудничества с нашими партнерами, клиентами, университетами и сообществами;
  • Участие в научных и прикладных конференциях в России и за рубежом;
  • Самые передовые технологии, высокие амбиции, международные продукты, быстрые практические результаты;
  • Возможность согласования индивидуального рабочего графика и дистанционной работы;
  • Официальное оформление по ТК, компенсация больничных и отпусков в 100% размере от текущего оклада;
  • Отличный современный офис, в котором предусмотрено все для комфортной работы: от велопарковок и удобной мебели до общих рабочих зон и обилия фруктов и снеков;
  • Самое сердце Санкт-Петербурга, Петроградская сторона, неподалеку от ИТМО и офисов самых известных IT-компаний города и мира, в шаговой доступности от известных IT-шных баров, площадок для митапов;
  • Помощь в релокации, в подборе подходящего жилья, релокационный бонус;
  • Неповторимая корпоративная культура Just AI DNA, вечеринки, джаз-концерты, совместные кинопросмотры и многое другое…

Ключевые навыки

NLP

Адрес

Петроградская, Чкаловская, Санкт-Петербург, Большая Зеленина улица, 24
Показать на большой карте

Вакансия опубликована 1 июня 2021 в Санкт-Петербурге

Похожие вакансии