Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:
В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.
Мы умеем обрабатывать различные документы при помощи ИИ, какие, узнайте по ссылке.
Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:
Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.
Мы сравнивали 7 решений:
Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:
Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:
Мы не просто так разбили содержимое счетов на несколько категорий: обязательные поля, необязательные поля и позиции из счетов-фактур. Потому что модели “сыпались” в основном на позициях из счетов фактур.
Вот, обобщенные результаты распознавания счетов. В лидерах - AWS, в проигравших Google - данная модель не сумела разбить позиции на отдельные сущности, все выгрузила единой строкой.
Но если мы выгрузим только основные поля, не рассматривая результаты по позициям из счетов-фактур, то результаты будут совсем иными. Здесь лучше всех себя показал Deepseek, а хуже всех - снова Google.
Модель от Google DeepMind (Gemini 2.0 Pro) показала лучшую точность по всем метрикам. Она корректно извлекала как базовые поля (дата, сумма, реквизиты), так и вложенные товарные позиции.
Преимущества:
Особенность: Gemini требует более длинных промптов, но при правильной формулировке возвращает данные в табличной структуре, близкой к бухгалтерским системам.
Вариант GPT-4o с текстовым вводом через OCR (например, AWS Textract) показал достойную точность. Однако при использовании изображений (ввод в виде PDF или скана) модель иногда:
Тем не менее, GPT можно использовать эффективно при:
Проблема модели в том, что она возвращает неструктурированный текст для табличных блоков: строка с описанием, количеством и ценой объединяется в одну длинную строку. Это исключает автоматическую постобработку или интеграцию в бухгалтерский софт.
Google не поддерживает:
Вывод: использовать Google Document AI можно только для простых счетов, где нужны общие суммы и реквизиты.
Классические API от AWS и Microsoft:
Но у них есть ограничения:
Модель Deepseek v3 показала наихудшую точность среди всех решений. Характерные проблемы:
Тем не менее, Deepseek может быть интересен как недорогой open-source вариант для задач, где качество вторично.
Мы разработали демо версию на прогрессивной ИИ-модели, чтобы вы увидели, как ИИ может помочь с работой над заявками и коммерческими предложениями.
Мы проверяли поведение моделей на сканах 150–200 DPI. Почти все решения, кроме Deepseek, выдержали тест:
Получается, что современные модели достаточно устойчивы к качеству входных изображений.
Мы исключили 2 образца из анализа, потому что у них не было явных полей суммы или количества в товарных строках, а также были вложенные подпункты без обозначения уровней и табуляции.
Ни одна модель (даже Gemini) не смогла корректно восстановить структуру таких документов. Это означает, что:
| Сервис | Стоимость | Стоимость одной страницы (в среднем) |
| AWS | $10 / 1000 страниц 1 | $0.01 |
| Azure AI Document Intelligence | $10 / 1000 страниц | $0.01 |
| Google Document AI (Invoice Parser) | $10 / 1000 страниц | $0.01 |
| GPTT: текст GPT-4o | $2,50 / 1M входных жетонов, $10,00 / 1M выходных жетонов 2 | $0.021 |
| GPTI: Только GPT-4o | $2,50 / 1M входных токенов, $10,00 / 1M выходных токенов | $0.0087 |
| Gemini 2.0 Pro | $1.25, ввод подсказок ≤ 128k токенов $2.50, входные подсказки > 128k токенов $5.00, выходные подсказки ≤ 128k токенов $10.00, выходные подсказки > 128k токенов |
$0.0045 |
| API Deepseek v3 | $10 / 1000 страниц + $0,27 / 1M входных токенов, $1,10 / 1M выходных токенов | $0.011 |
Мы создаем индивидуальные системы по обработке документов при помощи искусственного интеллекта.