Система по распознаванию чертежей для бюро строительной экспертизы от Технологики
Июль 2022

Система по распознаванию чертежей для бюро строительной экспертизы

Система по распознаванию чертежей для бюро строительной экспертизы
Наш клиент занимается оценкой строительства и отделки зданий, а также подготовкой смет. Анализ чертежей зданий и их обсчёт отнимает очень большое время у персонала, поэтому мы разработали для клиента систему по распознаванию pdf-файлов с чертежами и автоматическим формированием смет в excel-формате.

Бизнес-логика

Чтобы точно подготовить оценку работ и смету, из плана здания необходимо получить следующую информацию об объекте:

  • Определить тип здания – это офисное здание, торговый центр, квартира или что-то другое.
  • Определить тип чертежа – это электрическая проводка, проводка труб, структурный чертеж с перечислением материалов или что-то другое.
  • Извлечь данные о масштабе.
  • Определить на плане специальные символы, такие как двери, окна, элементы санузлов.

Каждый проект является уникальным, разрабатывается разными подрядчиками на основе различного ПО, поэтому документация не стандартизована:

  • Все pdf-файлы по-разному форматированы;
  • Некоторые планы нарисованы от руки;
  • При разработке планов применяется большое количество шрифтов и специальных символов.

Готовые решения для распознавания символов не справлялись с должным уровнем погрешности, либо вовсе не могли справиться, поскольку символы, которые было необходимо распознать, представляли собой математические операторы, сокращения и аббревиатуры, а с такими символами аппарат OCR справляется плохо.

Распознавание типа плана помещений

Первым шагом при анализе любого PDF-файла с планом этажа является определение местоположения плана этажа на странице. Мы разработали модель машинного обучения сегментации, которая автоматически определяет местоположение чертежа. Система также предоставляет пользователям возможность самостоятельно выделять план этажа.

Система определяет тип и масштаб технического рисунка, а также автоматически формирует оглавление, облегчая навигацию по большим многостраничным документам.

Распознавание объектов на плане

Еще одна важная задача, которую мы должны были решить, —  это обнаружение различных объектов, присутствующих на поэтажных планах, таких как двери, окна, различные типы стен и т.д., помеченных специальными метками.

Поскольку алгоритмы OpenCV не очень хорошо подходят для анализа простых черно-белых геометрических фигур, мы применили глубокое обучение для повышения точности и исключения ложных срабатываний.

Для начала пользователь выделяет метку, которую необходимо обнаружить, по одной для каждой группы объектов. После этого начинается обработка, и технический рисунок анализируется моделью распознавания объектов. Результаты следующие:

  1. все соответствующие метки распознаны и подсчитаны
  2. все стены, окна и двери распознаны и разделены на группы в соответствии с их свойствами
  3. план помещения разделяется на комнаты, которые подсчитываются
  4. подсчитывается общая площадь плана помещения
  5. подсчитывается общая длина стен.

Пользователь может вручную просмотреть результаты распознавания и исправить все ошибки.

 

Сметы из pdf-таблиц переходят в формат Excel

Часто вместе с чертежом планировки идёт список всех дверей и окон. На языке оригинала это называется ёмким словосочетанием door and window schedule. Это список всех типов дверей и окон, которые встречаются в проекте.

Поэтому первоначальная задача – перевести для расчёта сметы все эти объекты в формат Excel, далее можно будет добавить нужные размерности стен, пола и потолка, чтобы получить финальную смету.

Существует ряд инструментов и решений, которые могут переводить pdf-таблицы в таблицы формата Excel, но такие решения плохо работают со сложными таблицами, в которых есть объединенные ячейки и разделение на страницы:

Объединенные ячейки часто некорректно разделяются на несколько ячеек. Также, когда таблица разделяется на несколько листов, колонки не совпадают между собой, что ведет к некорректному переносу данных, особенно когда текст переносится по строкам.

Мы разработали подсистему, которая сканирует pdf-таблицу и переводит ее в Excel формат без изменения оригинальной структуры таблицы и с сохранением целостности данных.

Бизнес-процесс

  1. Пользователь загружает pdf-файл с чертежом планировки
  2. Система определяет тип здания и тип чертежа, а также масштаб и отсекает чертеж.
  3. Пользователь исправляет ошибки, если те имеются, выделяет объекты, которые необходимо посчитать и жмет «Далее».
  4. Система занимается распознаванием стен, считает выделенные объекты и выдает Excel-файл со сметой и предварительной оценкой работ.

Задача по распознаванию чертежей и переводу их в электронную таблицу - это сложная задача и качество сильно зависит от входящего документа. Автоматизировать эту работу на 100% не получится в ближайшем будущем, человеческий труд так или иначе будет задействован, однако разработанный способ заметно сокращает ручную оценщика на 70-80%.

Результаты

Полученная система представляет собой полноценный инструмент для работы со сложными поэтажными планами и сопроводительными таблицами. Она сокращает ручной труд и значительно ускоряет расчет стоимости. Система обладает высокой гибкостью и может быть настроена на анализ любого PDF-документа и извлечение необходимой информации.

другие наши проекты

Приложение для обработки резюме на базе ChatGPT для кадрового агентства

Приложение для обработки резюме на базе ChatGPT для кадрового агентства

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Парсер данных для маркетплейсов

Парсер данных для маркетплейсов

Сервис для обнаружения лесных пожаров

Сервис для обнаружения лесных пожаров

Обработка судебных документов при помощи ChatGPT-4

Обработка судебных документов при помощи ChatGPT-4

Система оцифровки газет

Система оцифровки газет

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'