TRAINING DATA

TRAINING DATA
ДАТАСЕТ
1,200 фотографий рекламы и товаров с текстом на русском языке и подробной OCR-разметкой. Датасет решает задачи распознавания текста на русском языке

Текст с обложек и товаров

Способность распознавать и анализировать изображения и видео
Computer Vision
Выделение объектов на фото для обучения системы их распознаванию и интерпретации
Разметка данных
Разметка данных с помощью прямоугольников. С ее помощью модель обучается обнаруживать объекты и оценивать их положение в кадре
Bounding box
Оптическое распознавание символов - процесс преобразования изображения текста в машиночитаемый текстовый формат
OCR
1 200
пар фотографий и аннотаций
2
тип освещения
800
MB данных
Технические характеристики:
Два вида изображений с текстом:
Реклама:
  • названия организаций, постеры, билборды, наклейки и баннеры (чаще всего сняты на улице)

Товары:
  • еда, косметика, предметы личной гигиены, обложки книг и видеоигр (сняты в помещении)
Дневной свет:
  • снято в помещении или на улице в свете дня

Ночь:
  • снято в темноте на улице или в помещении
Два типа освещения:
Bounding Box:
  • разметка для каждой последовательности букв или чисел

OCR-разметка:
  • разметка для выделенной последовательности, включая пунктуацию
Типы разметки:
Пример изображений с Bounding Box из датасета для визуала
Оставьте заявку, чтобы приобрести лицензию, заказать датасет или получить больше информации
Смотреть другие датасеты