TRAINING DATA
Распознавание текста на изображениях
Фотографии документов с разметкой bounding box тестовых полей для OCR задач в разработке систем автоматической оцифровки бумажных материалов
Кейс
OCR
Процесс идентификации и преобразования текста с цифрового изображения в текстовый формат
Computer Vision
Способность распознавать и анализировать изображения и видео
Object Detection
Определение позиции объекта разметкой Bounding Box
Аннотация сущностей
Процесс идентификации и классификации именованных сущностей по заранее определенным категориям сущностей
Описание КЕЙСА
Датасет состоит из разнообразных документов на испанском языке из банковской, страховой и трудовой сфер. Сбор данных проводится на международных краудсорсинговых платформах, внутренним штатом AI-тренеров со знанием испанского языка. В каждом документе произведена детекция текстовых полей bounding box по 4 критериям
Документы могут быть напечатаны, отсняты с бумаги или с экрана, написаны рукой или представляют собой электронный вариант. Вид документов от идеального, до смятого, ветхого или разорванного, что обеспечивает возможность обучать нейронную сеть на большом спектре корнер-кейсов
Training Data проводит масштабный сбор: рабочих, корпоративных, личных документы граждан России, СНГ, Латинской Америки, США, Индии, Азии и стран Европы
Область применения датасета
Обработка финансовых документов
OCR для автоматического распознавания и анализа данных финансовых отчетов, счетов и квитанций
/01
Банковский сектор
OCR и детекция Bounding box для автоматизации и упрощения процесса подачи заявок на кредит, открытия банковского счета и других банковских операций.
/03
Безопасность
OCR для автоматического извлечения информации из паспортов, включая данные о гражданстве, дате рождения и т.д.
Разработка систем автоматического перевода
/02
OCR для разработки систем машинного перевода, способных переводить текст с одного языка на другой, тренировки и обучения модели перевода.
Обнаружение подделок
Классификация и детекция Bounding Box для сравнения оригинального документа с полученным и выявления поддельных экземпляров.
/04
/05
Training Data оказывает полный цикл работ по сбору и разметке текстовых материалов для разработки и обучения AI речевых моделей и систем оцифровки
Training Data оказывает полный цикл услуг по работе с изображениями для создания обучающих датасетов высокого качества
Похожие датасеты
Оставьте заявку, чтобы приобрести лицензию, заказать датасет или получить больше информации
ВАМ Понравится
Распознавание текста на картинках в контексте сбора и разметки данных может происходить с помощью технологии оптического распознавания символов (OCR — Optical Character Recognition).

У искусственного интеллекта огромный потенциал в ЖКХ: в мире более 80 % топ-компаний из этой сферы считают его приоритетным направлением развития, которое даст большой экономический эффект. Но реальных кейсов пока, конечно, гораздо меньше.

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты.