Немецкие региональные издательства продолжают выпускать газеты в формате PDF. Этот формат удобен для печати и архивирования, но не адаптирован под современные требования digital-медиа.
Основные проблемы, с которыми столкнулся заказчик:
Цель проекта — автоматизировать процесс обработки PDF-газет: находить рекламные блоки, извлекать из них ссылки и добавлять кликабельные зоны в исходный документ. Обработка должна быть быстрой, масштабируемой и полностью автономной.
Мы разработали end-to-end пайплайн, который преобразует статичный PDF в интерактивный документ без участия человека.
Исходные PDF-файлы загружаются на облачное хранилище S3. Каждый файл получает уникальный идентификатор, и система автоматически запускает обработку.
На основе модели YOLO выполняется сегментация страниц. Модель находит потенциальные рекламные блоки и возвращает координаты прямоугольных областей с объявлениями.
Каждый блок сохраняется как отдельное изображение и передаётся в языковую модель Gemini. Она анализирует содержимое, определяет, является ли блок рекламой, извлекает URL и возвращает структурированные данные (ссылка, описание, достоверность).
Система добавляет в исходный PDF ссылку, размещённую на соответствующем рекламном блоке. Границы кликабельной области строго соответствуют координатам, полученным на этапе сегментации. При этом сохраняется оригинальная верстка документа.
Файл с активными ссылками сохраняется в хранилище в том же каталоге, рядом с исходной версией. Также формируется лог обработки, содержащий информацию о числе найденных объявлений, добавленных ссылок и возможных ошибках.
Разработанная система позволила автоматизировать трудоёмкий процесс и обеспечить:
Система заложена как масштабируемая и уже готова к дальнейшему развитию: добавлению интерфейса, поддержке аккаунтов, подписок, администрирования и подключению других типов медиа.