Распознавание рукописного текста — задача, которая остаётся болезненной даже в 2025 году. Именно это не позволяет оцифровать многие архивы и документы, а также является камнем преткновения в разной бизнес деятельности.
OCR-движки вроде Azure Document Intelligence, Google Vision или ABBYY уже давно научились безошибочно читать печатные формы, но всё рушится, когда на сцену выходит человек с ручкой.
Почерк — это хаос, в котором буквы скачут, строки уползают, а "5M" внезапно превращается в "5 PM", если повезёт. И если обычный OCR видит только буквы и пиксели, LLM видит смысл.
Производители заявляют, что модели вроде GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5 способны не просто распознать текст, а догадаться, что автор имел в виду: исправить пунктуацию, восстановить сокращения, даже понять, что стоит за пометками на полях.
Звучит красиво. Но работает ли это на реальных документах, а не в демо-видео с идеально отсканированными формами? Чтобы ответить, мы провели исследование и сравнили, как три топ-LLM обрабатывают рукописные и смешанные документы — с точки зрения точности, структурной консистентности и понимания контекста.
Чтобы не скатиться в синтетические бенчмарки, мы взяли три реальных документа, типичных для корпоративных сценариев, где OCR-ошибки могут стоить времени и денег:
Каждый документ имеет свои особенности и сложности для OCR и LLM:
Для чистоты эксперимента:
Для эксперимента были выбраны три модели разных архитектурных подходов:
Это позволило оценить не только базовую точность OCR, но и то, как модели восстанавливают смысл, формат и структуру данных после распознавания.
Эта форма — старомодный бланк с полями вроде Sponsor, Date of Event, Category, Mailing Address. Часть напечатана, часть вписана вручную — и именно это делает задачу интересной.
Основные сложности:
Claude 4.5 справился посредственно: понял суть, но несколько полей спутал, а слова вроде Cultural превратил в мифических существ ("Scolyunte"). Он явно склонен к "творческой интерпретации".
Gemini 2.5 Pro показал почти безупречный результат. Он не только правильно распознал все поля, но и нормализовал их формат: аккуратные даты, выровненные адреса, единый стиль JSON. Даже додался, что "5M" – это "5 PM", и восстановил недостающие запятые.
GPT-5 чуть проиграл по структурной чистоте, но оказался лучшим по естественности текста. Он сладил орфографические неровности и исправил реестр, делая результат ближе к читаемому человеком описанию.
Итог: Gemini впереди, GPT-5 почти дошёл, Claude — стабильный, но не продакшен-уровень.
Форма из городского архива, заполненная синей ручкой поверх выцветших полей. Здесь OCR сталкивается с типичными проблемами старых документов: кривые линии, неровный почерк, пересечение букв с рамками и случайные артефакты сканера.
Claude 4.5 всё понял правильно, но внёс хаос в ключи — где-то snake_case, где-то CAPS, а где-то просто пропустил пустые поля.
Gemini 2.5 Pro снова показал себя лучшей стороны: идеально воспроизвёл текст, сохранил пунктуацию (даже кавычки в "King of Sausages"), выстроил вложенные секции "WHEN / WHERE / WHO" и сдал JSON, который можно прямо загружать в базу.
GPT-5 показал сильное понимание контекста: фраза "Extremely busy but managed well" была не просто прочитана, а осмыслена как unit status. Но часть имён он перепутал ("Mac" вместо "Max") — классическая жертва OCR.
Итог: Gemini вновь впереди, GPT-5 почти дошёл, Claude — стабильный, но не продакшен-уровень.
Форма с дежурства — таблица, где вписаны имена, числа, состояния пациентов и кодовые заметки вроде "MRSA developing in a patient" или "Wiping down the surfaces".
Такие документы — кошмар для любого OCR: сетка таблицы помает структуру, буквы сливаются, а почерки отличаются настолько, что кажется — это разные языки.
Claude 4.5 сработал лучше, чем ожидалось: правильно распознал числовые поля и основные секции (Team, Advocate, Motivate), но перепутал имена и местами пропустил пустые поля.
Gemini 2.5 Pro снова лидер: он сохранил структуру таблицы, корректно распределил имена по колонкам, а странное "Einnish" (OCR-ошибка) — единственный заметный промах. При этом общая точность полей — 99 %.
GPT-5 показал сильное понимание контекста: фраза "Extremely busy but managed well" была не просто прочитана, а осмыслена как unit status. Но часть имён он перепутал ("Mac" вместо "Max") — классическая жертва OCR.
Итог: Gemini вновь впереди, GPT-5 почти дошёл, Claude — стабильный, но не продакшен-уровень.
После десятков прогонов трёх LLM по реальным рукописным формам результат оказался довольно однозначным — Gemini 2.5 Pro уверенно вырвалась вперёд по всем формальным метрикам.
| Метрика | Claude Sonnet 4.5 | Gemini 2.5 Pro | GPT-5 | Комментарий |
| Character Accuracy (сколько символов распознано корректно) |
93–97 % | 98–99 % | 97–98 % | Gemini лучше по символам, Claude чаще теряет пробелы и пунктуацию |
| Field Accuracy (сколько полей правильно извлечено) |
90–96 % | 99–100 % | 96–98 % | Gemini безошибочно выстраивает ключи и значения |
| Semantic Accuracy (насколько правильно понят смысл и контекст) |
95–98 % | 99–100 % | 98–99 % | GPT-5 чуть сильнее в логике, но слабее в форме |
| Completeness (доля извлечённых полей от ожидаемого) |
96–100 % | 100 % | 96–100 % | Все трое неплохо, но Gemini стабильно полон |
| Schema Consistency (единообразие JSON-структуры между документами) |
Средняя | Очень высокая | Высокая | JSON у Gemini можно подавать в прод без пост-обработки |
Если коротко:
Мы замеряли не только качество, но и цену и время обработки, потому что в продакшене важно не просто «чтобы красиво», а чтобы дёшево и предсказуемо.
| Модель | Стоимость на документ (USD) | Среднее время обработки | Примечание |
| Claude Sonnet 4.5 | 0.0165 | ~ 75 с | Быстрее, но дороже и менее точен |
| Gemini 2.5 Pro | 0.0080 | ~ 90 с | Оптимальное соотношение цена / качество |
| GPT-5 | 0.0094 | ~ 120 с | Медленнее, но стабильно выдаёт контекстно-богатый результат |
Что это значит:
Когда речь идёт о распознавании реальных документов, ни один инструмент в одиночку не идеален. OCR прекрасно видит буквы, но не понимает смысла. LLM — наоборот: понимает смысл, но не знает, где на картинке что написано.
Поэтому оптимальная архитектура гибридная: OCR → LLM → Валидация.
После того как мы применили этот подход, мы получили лучшие результаты. Вместе эти инструменты формируют систему, где человек нужен только в спорных случаях, а всё остальное идёт автоматически. Вот результаты:
Облачные OCR и LLM-платформы вроде Gemini, GPT-5 или Azure Document Intelligence уже обеспечивают почти идеальную точность и масштабируемость.
Но не все компании могут позволить себе отправить документ в облако и дождаться JSON. Иногда это просто запрещено политиками безопасности.
Если данные нельзя выносить в облако, ту же логику можно воспроизвести локально: Внутренний OCR → приватная LLM.
Локальный гибрид может быть идеален для некоторых компаний компаний, поскольку: