Обработка судебных документов при помощи ChatGPT-4 | Технологика
Ноябрь 2023

Обработка судебных документов при помощи ChatGPT-4

Обработка судебных документов при помощи ChatGPT-4
Направления
Внедрили модель искусственного интеллекта на основе языковой модели последнего поколения ChatGPT-4 32k, которая вытаскивает из судебных документов необходимые клиенту данные, сократив трудозатраты сотрудников на 40%.

Бизнес-логика

Клиент - компания, которая помогает юридическим фирмам вести судебное делопроизводство и автоматизирует работу с большим потоком документов: ведет календари событий и задачи, организовывает хранение информации о клиентах и материалах юрфирм, автоматизирует и форматирует документы.

Через сотрудников ежемесячно проходит более 40 тысяч документов и все они обрабатываются вручную: сотрудники находят в документах ключевые даты по делам, составляют из них таймлайн дел, заносят это в CRM и СЭД. Помимо дат необходимо найти информацию про юрисдикцию дела, версию документа, номер дела.

В дополнение к поиску текстовых данных, сотрудникам необходимо определить, заверен ли документ подписью судьи, и если да, верифицировать её на подлинность. Если документ не заверен нужной подписью, такой документ не нужно обрабатывать и заносить в CRM. Такие документы попадают на другой вид обработки и контроля.

Решение

Мы разбили решение данной задачи на несколько этапов:

  1. Поиск и верификация подписи, поскольку без подписи документ не обрабатывается далее.
  2. Поиск важных для клиента атрибутов в тексте: все даты и действия, которые с ними связаны, юрисдикцию, тип документа, номер дела.
  3. Передача данных в CRM систему клиента в подходящем виде.

Клиент обладает облачным хранилищем на платформе Azure, в котором мы смогли настроить все доступы до сервисов OpenAI.

Поиск подписи и верификация

Для поиска подписи и её верификации мы использовали GPT-4 with Vision. GPT-4 with Vision позволяет GPT-4 анализировать входные изображения, а также сравнивать их между собой.

Имея эталонные изображения подписей судей, мы оцениваем подписи в конце документа и отсеиваем те, которые не имеют подписи или заверены кем-то другим.

Поиск текстовых данных

Поскольку клиент помогает вести судебное делопроизводство, очень важно иметь представление обо всех важных датах по каждому процессу. Эти даты указываются в документах, а также сопровождаются заметками о том, что необходимо сделать. Например, провести экспертизу, отправить результаты экспертизы или явиться на повторное слушание.

Задачу по поиску дат мы решаем также при помощи GPT-4. Эта модель отлично справляется с задачами такого рода. Единственное ограничение - длина текста. Поэтому мы обратились к оптимизированной модели GPT-4-32k, которая умеет работать с большей длинной контекста и лучше понимать большие тексты.

Если текстовых данных мало

Если в загруженных pdf-файлах текста мало, значит он состоит из изображений. В таких случаях наш алгоритм применяет модель OCR. Мы выбрали модель PaddleOCR, которая распознает текст с высокой точностью для нескольких языков.

Классификация документов

Когда у компании большой документооборот, среди "рабочих" документов могут попадаться "не рабочие" документы. Такие документы не нужно отправлять в базу данных, поэтому мы дополнительно проводим классификацию документов: судебный документ или несудебный документ.

Для решения данной задачи мы применяем MLPClassifier.

Передача данных клиенту

Сотрудники клиента вносят руками данные в CRM систему, что можно заменить на автоматический импорт данных. Поэтому все данные собираются в формат JSON.

Результаты

Результат

Разработанное решение экономит до 40% рабочего времени всех юристов, которые ведут делопроизводство и документооборот юридических клиентов заказчика.

другие наши проекты

Приложение для обработки резюме на базе ChatGPT для кадрового агентства

Приложение для обработки резюме на базе ChatGPT для кадрового агентства

Система по распознаванию чертежей для бюро строительной экспертизы

Система по распознаванию чертежей для бюро строительной экспертизы

Парсер данных для маркетплейсов

Парсер данных для маркетплейсов

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Приложение для извлечения данных из страховых заявлений

Приложение для извлечения данных из страховых заявлений

Система оцифровки газет

Система оцифровки газет

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'