Система оцифровки газет | Технологика
Апрель 2023

Система оцифровки газет

Система оцифровки газет
Направления
Приложение для оцифровки газет для европейского агентства по сканированию документов. Обнаружение статей, охватывающих несколько колонок, извлечение текста и определение типа статьи.

Задача

Наш клиент  крупная компания по сканированию и оцифровке документов, расположенная в Европе, которая искала способ улучшить и расширить масштабы своей работы по сканированию газет.

Клиент обратился к нам с задачей создать приложение для интеллектуальной обработки и оцифровки газет. Задача оцифровки газеты является наиболее сложной для OCR, поскольку газеты имеют сложную структуру, в них статьи располагаются в нескольких колонках, начинаются и заканчиваются в произвольных местах, часто разделены изображениями и рекламой.

Хотите больше узнать про ИИ-обработку документов?

Мы умеем обрабатывать различные документы при помощи ИИ, какие, узнайте по ссылке.

Узнать больше

Решение

Мы начали с анализа газетных страниц, чтобы получить четкое представление о структуре страницы и статьи. В ходе этого анализа мы обнаружили, что многие исторические газеты имеют физические повреждения, такие как коробление бумаги, царапины или выцветшие чернила. Это заставило нас разработать модуль предварительной обработки для повышения качества отсканированных газетных страниц.

Предварительная обработка газет

Этот модуль удаляет искривления бумаги, вызванные старостью или влажностью, удаляет пыль и царапины, а также заполняет буквы и символы, выцветшие со временем.

Некоторые мелкие символы, такие как знаки препинания, и двоеточие над гласными, теряются при распознавании текста, особенно если исходный материал находится не в лучшем состоянии. Поэтому мы приложили дополнительные усилия для сохранения этих символов во время предварительной обработки.

Извлечение газетных статей

Следующей задачей было обнаружение различных статей и их типов. Газетные статьи трудно или даже невозможно точно определить стандартными OCR-решениями из-за их сложной структуры и огромной вариативности форматирования.

Наше приложение обнаруживает текстовые блоки, принадлежащие к одной статье, на всей странице и собирает их в правильном порядке в статью. Включая заголовки, подзаголовки, иллюстрации, указание авторства и любые другие элементы, которые являются частью одной статьи. Для каждой обнаруженной статьи наша система определяет ее тип, например, редакционная статья, реклама, некролог и т.д.

Визуальный редактор

Все связи между блоками статей представлены визуально и могут быть отредактированы вручную с помощью визуального редактора. Пользователь может щелкнуть на любой элемент газетной страницы и переназначить его принадлежность к статье, изменить порядок блоков и типы статей.

Качество распознавания

Нам удалось достичь 98-99% качества распознавания, что делает нашу систему надежным решением для оцифровки газет любого периода времени и издательства.

Результаты

Наша система оцифровки газет успешно используется для создания высококачественных цифровых копий исторических и современных газет и помогла нашему клиенту развить свой бизнес и стать одной из ведущих компаний по оцифровке документов в Европе.

Обдумываете IDP решение?

Мы создаем индивидуальные системы по обработке документов при помощи искусственного интеллекта.

связаться с нами

другие наши проекты

Цифровизация рекламы в электронных pdf-газетах с помощью ИИ

Цифровизация рекламы в электронных pdf-газетах с помощью ИИ

Приложение для обработки резюме на базе LLM для кадрового агентства

Приложение для обработки резюме на базе LLM для кадрового агентства

Обработка судебных документов при помощи ChatGPT-4

Обработка судебных документов при помощи ChatGPT-4

Приложение для извлечения данных из страховых заявлений

Приложение для извлечения данных из страховых заявлений

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Обработка счетов с помощью AI

Обработка счетов с помощью AI

Перевод  технической документации на китайском языке с использованием ИИ

Перевод технической документации на китайском языке с использованием ИИ

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Компания'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'