Чтобы точно подготовить оценку работ и смету, из плана здания необходимо получить следующую информацию об объекте:
Каждый проект является уникальным, разрабатывается разными подрядчиками на основе различного ПО, поэтому документация не стандартизована:
Первым шагом при анализе любого PDF-файла с планом этажа является определение местоположения плана этажа на странице. Мы разработали модель машинного обучения сегментации, которая автоматически определяет местоположение чертежа. Система также предоставляет пользователям возможность самостоятельно выделять план этажа.
Система определяет тип и масштаб технического рисунка, а также автоматически формирует оглавление, облегчая навигацию по большим многостраничным документам.
Еще одна важная задача, которую мы должны были решить, — это обнаружение различных объектов, присутствующих на поэтажных планах, таких как двери, окна, различные типы стен и т.д., помеченных специальными метками.
Поскольку алгоритмы OpenCV не очень хорошо подходят для анализа простых черно-белых геометрических фигур, мы применили глубокое обучение для повышения точности и исключения ложных срабатываний.
Для начала пользователь выделяет метку, которую необходимо обнаружить, по одной для каждой группы объектов. После этого начинается обработка, и технический рисунок анализируется моделью распознавания объектов. Результаты следующие:
Пользователь может вручную просмотреть результаты распознавания и исправить все ошибки.
Часто вместе с чертежом планировки идёт список всех дверей и окон. На языке оригинала это называется ёмким словосочетанием door and window schedule. Это список всех типов дверей и окон, которые встречаются в проекте.
Поэтому первоначальная задача – перевести для расчёта сметы все эти объекты в формат Excel, далее можно будет добавить нужные размерности стен, пола и потолка, чтобы получить финальную смету.
Существует ряд инструментов и решений, которые могут переводить pdf-таблицы в таблицы формата Excel, но такие решения плохо работают со сложными таблицами, в которых есть объединенные ячейки и разделение на страницы:
Объединенные ячейки часто некорректно разделяются на несколько ячеек. Также, когда таблица разделяется на несколько листов, колонки не совпадают между собой, что ведет к некорректному переносу данных, особенно когда текст переносится по строкам.
Мы разработали подсистему, которая сканирует pdf-таблицу и переводит ее в Excel формат без изменения оригинальной структуры таблицы и с сохранением целостности данных.
Задача по распознаванию чертежей и переводу их в электронную таблицу - это сложная задача и качество сильно зависит от входящего документа. Автоматизировать эту работу на 100% не получится в ближайшем будущем, человеческий труд так или иначе будет задействован, однако разработанный способ заметно сокращает ручную оценщика на 70-80%.
Полученная система представляет собой полноценный инструмент для работы со сложными поэтажными планами и сопроводительными таблицами. Она сокращает ручной труд и значительно ускоряет расчет стоимости. Система обладает высокой гибкостью и может быть настроена на анализ любого PDF-документа и извлечение необходимой информации.