Описание проекта

Система оцифровки газет

Система оцифровки газет
Приложение для оцифровки газет для европейского агентства по сканированию документов. Обнаружение статей, охватывающих несколько колонок, извлечение текста и определение типа статьи.

Задача

Наш клиент  крупная компания по сканированию и оцифровке документов, расположенная в Европе, которая искала способ улучшить и расширить масштабы своей работы по сканированию газет.

Клиент обратился к нам с задачей создать приложение для интеллектуальной обработки и оцифровки газет. Задача оцифровки газеты является наиболее сложной для OCR, поскольку газеты имеют сложную структуру, в них статьи располагаются в нескольких колонках, начинаются и заканчиваются в произвольных местах, часто разделены изображениями и рекламой.

Решение

Мы начали с анализа газетных страниц, чтобы получить четкое представление о структуре страницы и статьи. В ходе этого анализа мы обнаружили, что многие исторические газеты имеют физические повреждения, такие как коробление бумаги, царапины или выцветшие чернила. Это заставило нас разработать модуль предварительной обработки для повышения качества отсканированных газетных страниц.

Предварительная обработка газет

Этот модуль удаляет искривления бумаги, вызванные старостью или влажностью, удаляет пыль и царапины, а также заполняет буквы и символы, выцветшие со временем.

Некоторые мелкие символы, такие как знаки препинания, и двоеточие над гласными, теряются при распознавании текста, особенно если исходный материал находится не в лучшем состоянии. Поэтому мы приложили дополнительные усилия для сохранения этих символов во время предварительной обработки.

Извлечение газетных статей

Текст и изображения из каждой статьи извлекаются в виде редактируемого и доступного для поиска текстового документа.

Следующей задачей было обнаружение различных статей и их типов. Газетные статьи трудно или даже невозможно точно определить стандартными OCR-решениями из-за их сложной структуры и огромной вариативности форматирования.

Наше приложение обнаруживает текстовые блоки, принадлежащие к одной статье, на всей странице и собирает их в правильном порядке в статью. Включая заголовки, подзаголовки, иллюстрации, указание авторства и любые другие элементы, которые являются частью одной статьи. Для каждой обнаруженной статьи наша система определяет ее тип, например, редакционная статья, реклама, некролог и т.д.

Визуальный редактор

Любой элемент газетной страницы может быть переназначен: его принадлежность к статье, порядок блоков и тип статьи

Все связи между блоками статей представлены визуально и могут быть отредактированы вручную с помощью визуального редактора. Пользователь может щелкнуть на любой элемент газетной страницы и переназначить его принадлежность к статье, изменить порядок блоков и типы статей.

Качество распознавания

Нам удалось достичь 98-99% качества распознавания, что делает нашу систему надежным решением для оцифровки газет любого периода времени и издательства.

Результаты

Наша система оцифровки газет успешно используется для создания высококачественных цифровых копий исторических и современных газет и помогла нашему клиенту развить свой бизнес и стать одной из ведущих компаний по оцифровке документов в Европе.

Хотите обсудить проект?

Напишите нам! Мы поможем найти максимально эффективное решение. В нашем арсенале современные технологии, благодаря которым мы можем реализовать проекты, начиная с простых мобильных приложений и заканчивая многофункциональными корпоративными порталами.