ML-инженера (NLP/OCR) для проекта автоматизации обработки входящих спецификаций с интеграцией в сайт и 1С.
Цель позиции:
Создание интеллектуального модуля, способного распознавать, извлекать и структурировать данные из неформализованных спецификаций (PDF, Excel, Word, изображения) с последующим автоматическим сопоставлением с номенклатурой 1С. Основной задачей будет разработка, обучение и оптимизация моделей OCR + NLP + Matching, интегрированных в веб-сайт.
Основные задачи:
1. Разработка модуля извлечения и распознавания данных:
o Построение пайплайна: OCR (Tesseract или аналог) → NLP-анализ → структурирование данных.
o Выделение ключевых сущностей: артикул, наименование, количество, единица измерения из текстовых и табличных данных.
o Построение алгоритмов "табличной" реконструкции неформализованных данных (парсинг строк спецификации).
2. Модель интеллектуального сопоставления с номенклатурой 1С (каталог 100k+ товаров):
o Разработка алгоритмов fuzzy matching (артикул/наименование).
o Использование моделей NLP/semantic search для поиска по смысловой близости.
o Оптимизация быстродействия поиска по каталогу (поиск по артикулам, embedding, индексирование).
3. Интеграция с backend (совместно с backend и data-инженером):
o Создание API или модулей для взаимодействия backend ↔ ML сервис.
o Участие в построении архитектуры сервиса (разделение на микросервисы/модульность).
4. Распознавание единиц измерения и конвертация:
o Разработка механизма приведения разных форматов обозначений к стандартным (шт, м, кг...).
o (Будет плюсом) Проработка конвертации нестандартных единиц (упаковка, коробка).
5. Механизм обучения на пользовательских исправлениях (Human-in-the-loop):
o Разработка и внедрение модели дообучения на реальных исправлениях пользователей.
o Сбор и подготовка датасета из пользовательских правок.
o Поддержка/внедрение активного обучения для улучшения моделей.
6. Документация, передача знаний, взаимодействие с командой:
o Подробная документация по модели/проекту.
o Регулярная коммуникация с командой (1С, backend, frontend, dataengineer).
o Участие в ежедневных планерках, обсуждение архитектуры, MVP.
Требуемые навыки и компетенции:
Обязательные:
• Опыт разработки моделей NLP и OCR: от сбора данных до обучения и внедрения в продакшн.
• Уверенное владение Python + ML/NLP библиотеками: Transformers, spaCy, Pytorch/Tensorflow, Pydantic, FastAPI/Flask для API.
• Опыт работы с OCR (Tesseract, Google Vision API, EasyOCR или аналоги).
• Навыки обработки естественного языка (NER, парсинг, токенизация, entity linking).
• Опыт построения пайплайнов для обработки PDF, DOC, XLS, изображений (различные форматы документов).
• Опыт создания механизмов fuzzy matching (поиск с опечатками, синонимами, семантический поиск), например, FuzzyWuzzy, RapidFuzz, ElasticSearch, FAISS, Weaviate, Pinecone.
• Навыки построения и оптимизации поиска по большим каталогам (100k+ позиций).
Будет плюсом:
• Опыт построения интерфейсов обратной связи для обучения моделей на исправлениях (reinforcement learning from human feedback, activelearning).
• Знание алгоритмов табличного OCR/AI parsing (например, LayoutLM, Donut, DocTR).
• Опыт в fine-tuning LLaMA, Mistral, BERT-like моделей для задач NER/табличного распознавания.
• Опыт взаимодействия с 1С (даже на уровне API, интеграций).
• Умение выстраивания production-ready решений.
Что у нас есть:
• Backend, frontend разработчики (интеграция сайта и API).
• 1С программист (интеграция с учетной системой, согласование форматов данных).
• Бизнес-аналитики для предоставления примеров спецификаций, данных для обучения.
Формат работы:
• Полная занятость или part-time (готовы обсуждать занятость под проект, но важна включенность).
• Формат работы удаленка + офис (готовы обсуждать)
Условия:
• Достойная оплата (по результатам собеседования).
• Участие в конкретном внедрении ML в бизнес-процесс
Что ждем от кандидата:
• Умение работать в команде (не одиночный ML-исследователь, а инженер, готовый внедрять в рабочий процесс).
• Фокус на прикладной результат, понимание бизнес-задач.
• Способность предлагать и аргументировать архитектурные решения.
• Готовность разбираться в специфике B2B, номенклатуре, каталогах товаров.
Задайте вопрос работодателю
Вакансия опубликована 17 марта 2025 в Санкт-Петербурге