ML-инженер

Уровень дохода не указан

Опыт работы: 3–6 лет

Частичная занятостьВозможно временное оформление

График: 5/2

Рабочие часы: 4, 5, 6, 7 или 8

Формат работы: гибрид

Крупная торговая компания

Напишите телефон, чтобы работодатель мог связаться с вами

Чтобы подтвердить, что вы не робот, введите текст с картинки:
captcha
Крупная торговая компания ищет

ML-инженера (NLP/OCR) для проекта автоматизации обработки входящих спецификаций с интеграцией в сайт и 1С.

Цель позиции:

Создание интеллектуального модуля, способного распознавать, извлекать и структурировать данные из неформализованных спецификаций (PDF, Excel, Word, изображения) с последующим автоматическим сопоставлением с номенклатурой 1С. Основной задачей будет разработка, обучение и оптимизация моделей OCR + NLP + Matching, интегрированных в веб-сайт.

Основные задачи:

1. Разработка модуля извлечения и распознавания данных:

o Построение пайплайна: OCR (Tesseract или аналог) → NLP-анализ → структурирование данных.

o Выделение ключевых сущностей: артикул, наименование, количество, единица измерения из текстовых и табличных данных.

o Построение алгоритмов "табличной" реконструкции неформализованных данных (парсинг строк спецификации).

2. Модель интеллектуального сопоставления с номенклатурой 1С (каталог 100k+ товаров):

o Разработка алгоритмов fuzzy matching (артикул/наименование).

o Использование моделей NLP/semantic search для поиска по смысловой близости.

o Оптимизация быстродействия поиска по каталогу (поиск по артикулам, embedding, индексирование).

3. Интеграция с backend (совместно с backend и data-инженером):

o Создание API или модулей для взаимодействия backend ↔ ML сервис.

o Участие в построении архитектуры сервиса (разделение на микросервисы/модульность).

4. Распознавание единиц измерения и конвертация:

o Разработка механизма приведения разных форматов обозначений к стандартным (шт, м, кг...).

o (Будет плюсом) Проработка конвертации нестандартных единиц (упаковка, коробка).

5. Механизм обучения на пользовательских исправлениях (Human-in-the-loop):

o Разработка и внедрение модели дообучения на реальных исправлениях пользователей.

o Сбор и подготовка датасета из пользовательских правок.

o Поддержка/внедрение активного обучения для улучшения моделей.

6. Документация, передача знаний, взаимодействие с командой:

o Подробная документация по модели/проекту.

o Регулярная коммуникация с командой (1С, backend, frontend, dataengineer).

o Участие в ежедневных планерках, обсуждение архитектуры, MVP.

Требуемые навыки и компетенции:

Обязательные:

• Опыт разработки моделей NLP и OCR: от сбора данных до обучения и внедрения в продакшн.

• Уверенное владение Python + ML/NLP библиотеками: Transformers, spaCy, Pytorch/Tensorflow, Pydantic, FastAPI/Flask для API.

• Опыт работы с OCR (Tesseract, Google Vision API, EasyOCR или аналоги).

• Навыки обработки естественного языка (NER, парсинг, токенизация, entity linking).

• Опыт построения пайплайнов для обработки PDF, DOC, XLS, изображений (различные форматы документов).

• Опыт создания механизмов fuzzy matching (поиск с опечатками, синонимами, семантический поиск), например, FuzzyWuzzy, RapidFuzz, ElasticSearch, FAISS, Weaviate, Pinecone.

• Навыки построения и оптимизации поиска по большим каталогам (100k+ позиций).

Будет плюсом:

• Опыт построения интерфейсов обратной связи для обучения моделей на исправлениях (reinforcement learning from human feedback, activelearning).

• Знание алгоритмов табличного OCR/AI parsing (например, LayoutLM, Donut, DocTR).

• Опыт в fine-tuning LLaMA, Mistral, BERT-like моделей для задач NER/табличного распознавания.

• Опыт взаимодействия с 1С (даже на уровне API, интеграций).

• Умение выстраивания production-ready решений.

Что у нас есть:

• Backend, frontend разработчики (интеграция сайта и API).

• 1С программист (интеграция с учетной системой, согласование форматов данных).

• Бизнес-аналитики для предоставления примеров спецификаций, данных для обучения.

Формат работы:

• Полная занятость или part-time (готовы обсуждать занятость под проект, но важна включенность).

• Формат работы удаленка + офис (готовы обсуждать)

Условия:

• Достойная оплата (по результатам собеседования).

• Участие в конкретном внедрении ML в бизнес-процесс

Что ждем от кандидата:

• Умение работать в команде (не одиночный ML-исследователь, а инженер, готовый внедрять в рабочий процесс).

• Фокус на прикладной результат, понимание бизнес-задач.

• Способность предлагать и аргументировать архитектурные решения.

• Готовность разбираться в специфике B2B, номенклатуре, каталогах товаров.

Доступно соискателям с инвалидностью

Задайте вопрос работодателю

Он получит его с откликом на вакансию

Вакансия опубликована 17 марта 2025 в Санкт-Петербурге

Похожие вакансии

Крупная торговая компания