Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:
В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.
Мы умеем обрабатывать различные документы при помощи ИИ, какие, узнайте по ссылке.
Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:
Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.
Мы сравнивали 7 решений:
Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:
Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:
Мы не просто так разбили содержимое счетов на несколько категорий: обязательные поля, необязательные поля и позиции из счетов-фактур. Потому что модели “сыпались” в основном на позициях из счетов фактур.
Вот, обобщенные результаты распознавания счетов. В лидерах - AWS, в проигравших Google - данная модель не сумела разбить позиции на отдельные сущности, все выгрузила единой строкой.
Но если мы выгрузим только основные поля, не рассматривая результаты по позициям из счетов-фактур, то результаты будут совсем иными. Здесь лучше всех себя показал Deepseek, а хуже всех - снова Google.
Модель от Google DeepMind (Gemini 2.0 Pro) показала лучшую точность по всем метрикам. Она корректно извлекала как базовые поля (дата, сумма, реквизиты), так и вложенные товарные позиции.
Преимущества:
Особенность: Gemini требует более длинных промптов, но при правильной формулировке возвращает данные в табличной структуре, близкой к бухгалтерским системам.
Вариант GPT-4o с текстовым вводом через OCR (например, AWS Textract) показал достойную точность. Однако при использовании изображений (ввод в виде PDF или скана) модель иногда:
Тем не менее, GPT можно использовать эффективно при:
Проблема модели в том, что она возвращает неструктурированный текст для табличных блоков: строка с описанием, количеством и ценой объединяется в одну длинную строку. Это исключает автоматическую постобработку или интеграцию в бухгалтерский софт.
Google не поддерживает:
Вывод: использовать Google Document AI можно только для простых счетов, где нужны общие суммы и реквизиты.
Классические API от AWS и Microsoft:
Но у них есть ограничения:
Модель Deepseek v3 показала наихудшую точность среди всех решений. Характерные проблемы:
Тем не менее, Deepseek может быть интересен как недорогой open-source вариант для задач, где качество вторично.
Мы создаем индивидуальные системы по обработке документов при помощи искусственного интеллекта.
Мы проверяли поведение моделей на сканах 150–200 DPI. Почти все решения, кроме Deepseek, выдержали тест:
Получается, что современные модели достаточно устойчивы к качеству входных изображений.
Мы исключили 2 образца из анализа, потому что у них не было явных полей суммы или количества в товарных строках, а также были вложенные подпункты без обозначения уровней и табуляции.
Ни одна модель (даже Gemini) не смогла корректно восстановить структуру таких документов. Это означает, что:
Сервис | Стоимость | Стоимость одной страницы (в среднем) |
AWS | $10 / 1000 страниц 1 | $0.01 |
Azure AI Document Intelligence | $10 / 1000 страниц | $0.01 |
Google Document AI (Invoice Parser) | $10 / 1000 страниц | $0.01 |
GPTT: текст GPT-4o | $2,50 / 1M входных жетонов, $10,00 / 1M выходных жетонов 2 | $0.021 |
GPTI: Только GPT-4o | $2,50 / 1M входных токенов, $10,00 / 1M выходных токенов | $0.0087 |
Gemini 2.0 Pro | $1.25, ввод подсказок ≤ 128k токенов $2.50, входные подсказки > 128k токенов $5.00, выходные подсказки ≤ 128k токенов $10.00, выходные подсказки > 128k токенов |
$0.0045 |
API Deepseek v3 | $10 / 1000 страниц + $0,27 / 1M входных токенов, $1,10 / 1M выходных токенов | $0.011 |
Свяжитесь с нами, чтобы начать трансформацию вашего бизнеса.