Data Scientist / ML-engineer (NLP)

з/п не указана

Требуемый опыт работы: 3–6 лет

Полная занятость, гибкий график

Компания Just AI более 5 лет разрабатывает собственный NLP-провайдер CAILA. Сейчас им пользуется более 250 компаний в облаке и контуре. Ежедневно облачный провайдер обрабатывает более 400 тыс. сообщений в день с пиками до 1k RPS на русском, английском, китайском и португальском языках.

Мы расширяем свое присутствие на международном рынке и нуждаемся в быстром добавлении новых языков и улучшении поддержки уже существующих. Для этого в помощь команде разработки ищем нового коллегу - Data Scientist / ML-engineer (NLP). который возьмет на себя задачи по разработке новых моделей и алгоритмов решения NLP-задач в диалоговых системах.

Задачи:

  • Исследование, бенчмаркинг и отбор существующих NLP-библиотек (NER, Intent Classification, препроцессинг и т.п.) для интеграции в мультилингвальный NLP-провайдер.
  • Анализ диалоговых данных, оценка существующих алгоритмов и моделей, разработка предложений по улучшению.
  • Доработка и поддержка библиотек, моделей и алгоритмов по замечаниям лингвистов и пользователей.

Ваши задачи на ближайший год:

  1. Найти, протестировать, оценить на бенчмарках готовые библиотеки для токенизации, выделения сущностей, классификации диалоговых фраз на 15-ти новых языках.
  2. Провести сравнительную оценку наших NLU-решений с существующими аналогами на рынке. Проверить на бенчмарк-тестах и проприетарных данных. Найти сильные и слабые стороны каждого решения.
  3. Оценить применимость (по качеству и скорости) ML-моделей для решения NLU задач.
  4. Решать проблемы обработки NLP на примере: "The words "的", "啊", "呀" after "是" are stop words or auxiliary words, which do not affect the meaning of the sentence, so they should also match the "是" in the intent. Предложить решение в рамках существующего стека технологий.
  5. Участвовать в проектировании NLP-провайдера.

Мы ожидаем:

  • Умение писать production-ready код в Python, знание Git, Linux, Docker.
  • Опыт работы с классическим ML алгоритмами и библиотеками (sklearn/scipy/pandas/numpy stack).
  • Опыт работы с алгоритмами и библиотеками машинного обучения в NLP (с некоторыми из представленных): NLTK, DeepPavlov, Spacy, Gensim, Udpipe.
  • Английский язык в объеме достаточном, для чтения проф литературы. Приветствуется желание выступать на международных конференциях.

Будет плюсом:

  • Опыт построения моделей с использованием оптимальных эмбеддингов, памяти и внимания.
  • Опыт построения моделей глубокого обучения (Transformers, Language Modeling, Sentiment Analysis, Seq2Seq).
  • Опыт применения ML Ops инструментов (Kubernetes, Kuberflow, ML Flow, облачные сервисы GCP, Amazon и т.п.);
  • Знание нескольких иностранных языков;
  • Опыт программирования на Java/Kotlin.

Мы предлагаем:

  • Интересные проекты, возможность быстрой имплементации результатов исследований в продукты и публикации в научных изданиях;
  • Возможности для профессионального роста и обмена опытом как внутри коллектива, так и в рамках внешнего сотрудничества с нашими партнерами, клиентами, университетами и сообществами;
  • Участие в научных и прикладных конференциях в России и за рубежом;
  • Самые передовые технологии, высокие амбиции, международные продукты, быстрые практические результаты;
  • Возможность согласования индивидуального рабочего графика и дистанционной работы;
  • Официальное оформление по ТК, компенсация больничных и отпусков в 100% размере от текущего оклада;
  • Отличный современный офис, в котором предусмотрено все для комфортной работы: от велопарковок и удобной мебели до общих рабочих зон и обилия фруктов и снеков;
  • Самое сердце Санкт-Петербурга, Петроградская сторона, неподалеку от ИТМО и офисов самых известных IT-компаний города и мира, в шаговой доступности от известных IT-шных баров, площадок для митапов;
  • Помощь в релокации, в подборе подходящего жилья, релокационный бонус;
  • Неповторимая корпоративная культура Just AI DNA, вечеринки, джаз-концерты, совместные кинопросмотры и многое другое…

Ключевые навыки

NLP

Адрес

Петроградская, Чкаловская, Санкт-Петербург, Большая Зеленина улица, 24
Показать на большой карте

Вакансия опубликована 13 апреля 2021 в Санкт-Петербурге

Похожие вакансии