Цифровизация рекламы в электронных pdf-газетах | Технологика
Май 2025

Цифровизация рекламы в электронных pdf-газетах с помощью ai

Цифровизация рекламы в электронных pdf-газетах с помощью ai
Направления
Мы разработали систему, которая автоматически находит рекламные объявления в PDF-версиях газет и делает их кликабельными так, что пользователь может сразу перейти по ссылке рекламодателя, кликнув по объявлению. Это особенно актуально для нашего клиента, который выпускает печатные газеты, а также распространяет их в цифровом виде, но не поддерживают интерактивность.

Задача

Немецкие региональные издательства продолжают выпускать газеты в формате PDF. Этот формат удобен для печати и архивирования, но не адаптирован под современные требования digital-медиа.

Основные проблемы, с которыми столкнулся заказчик:

  • Рекламные объявления содержат веб-ссылки, но пользователи не могут по ним перейти — PDF остаётся статичным. Это снижает эффективность рекламы и делает невозможным отслеживание переходов.
  • Добавление гиперссылок вручную требует много времени и усилий. Редакции не справляются с объемом — особенно в ежедневных выпусках.
  • Формат не соответствует ожиданиям аудитории: в цифровом контенте пользователи ожидают интерактивность и кликабельность по умолчанию.

Цель проекта — автоматизировать процесс обработки PDF-газет: находить рекламные блоки, извлекать из них ссылки и добавлять кликабельные зоны в исходный документ. Обработка должна быть быстрой, масштабируемой и полностью автономной.

Решение

Мы разработали end-to-end пайплайн, который преобразует статичный PDF в интерактивный документ без участия человека.

Загрузка и хранение

Исходные PDF-файлы загружаются на облачное хранилище S3. Каждый файл получает уникальный идентификатор, и система автоматически запускает обработку.

Выделение рекламных блоков

На основе модели YOLO выполняется сегментация страниц. Модель находит потенциальные рекламные блоки и возвращает координаты прямоугольных областей с объявлениями.

Распознавание и извлечение ссылок

Каждый блок сохраняется как отдельное изображение и передаётся в языковую модель Gemini. Она анализирует содержимое, определяет, является ли блок рекламой, извлекает URL и возвращает структурированные данные (ссылка, описание, достоверность).

Добавление интерактивности

Система добавляет в исходный PDF ссылку, размещённую на соответствующем рекламном блоке. Границы кликабельной области строго соответствуют координатам, полученным на этапе сегментации. При этом сохраняется оригинальная верстка документа.

Генерация итогового документа

Файл с активными ссылками сохраняется в хранилище в том же каталоге, рядом с исходной версией. Также формируется лог обработки, содержащий информацию о числе найденных объявлений, добавленных ссылок и возможных ошибках.

Результаты

Разработанная система позволила автоматизировать трудоёмкий процесс и обеспечить:

  • Существенное сокращение времени на подготовку одного выпуска — с нескольких часов до нескольких минут;
  • Повышение эффективности рекламы — пользователи теперь могут сразу перейти по ссылке;
  • Улучшение пользовательского опыта — PDF-газеты приобрели черты интерактивного цифрового издания.

Система заложена как масштабируемая и уже готова к дальнейшему развитию: добавлению интерфейса, поддержке аккаунтов, подписок, администрирования и подключению других типов медиа.

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'