Наш клиент — стартап цифровых решений для медицинских учреждений — хотел проверить, можно ли построить собственную голосовую систему-ассистента, которая заменит живого оператора, и при этом будет соответствовать требованиям конфиденциальности GDPR – обработка персональных данных должна быть законной, справедливой и прозрачной для субъекта данных, с ясным и недвусмысленным согласием на обработку, а также для конкретной цели.
Ключевая проблема состояла в том, что существующие решения на рынке хоть и обеспечивают нужный функционал (распознавание речи, синтез, управление диалогами), но работают как правило в облаке. Это означает, что персональные данные пациентов проходят через внешние сервисы и могут быть уязвимы для утечек.
Клиенту принципиально важно было получить систему, полностью работающую локально, внутри своей инфраструктуры с сохранением качества, как если бы система была бы интегрирована с внешними облачными AI сервисами.
Кроме вопроса безопасности, необходимо было проверить, насколько современные open-source технологии справятся с задачами в реальном звонке: правильно ли ассистент воспринимает речь, может ли он записать пациента на приём, подсказать справочную информацию, вести разговор без заметных задержек и прерываний.
Основной целью проекта было создание рабочего прототипа, который позволил бы понять, реально ли на базе выбранного набора технологий построить полноценное MVP и затем развивать систему дальше.
Мы реализовали прототип голосового ассистента, развернув все ключевые компоненты on-premises на инфраструктуре клиента. Архитектура включала модули распознавания речи (Whisper/Vosk), диалоговый движок на базе Rasa, и синтез речи через Coqui TTS.
Ассистент принимал звонки через PBX, распознавал запрос пациента, определял намерение, выполнял действия через API (например, запись на приём или предоставление справки) и озвучивал ответ естественным голосом.
В рамках прототипа мы сделали интеграцию с CRM Bitrix24 и Google Calendar: в них ai-оператор мог осуществить запись клиента или поменять время приёма.
Основной задачей на этот PoC было исследовать платформу Rasa.
Rasa — это платформа с открытым исходным кодом для создания диалоговых систем и чат-ботов, основанная на методах машинного обучения и обработке естественного языка (NLU).
Благодаря NLU Rasa распознает намерения и извлекает сущности из пользовательских сообщений. На этом и строится основная задумка проекта - распознавать намерение клиента и извлекать из него сущности, а далее этими сущностями оперировать.
В Rasa обучение происходит на основе примеров диалогов, где система учится предсказывать ответы или действия бота в различных ситуациях без жесткого программирования через условные операторы. Ответы бота могут иметь формальные имена, связанные с текстом или скриптами на Python для выполнения сложного поведения.
Платформа поддерживает интеграцию с внешними сервисами и мессенджерами, что облегчает внедрение виртуальных помощников в бизнес-процессы и различные каналы коммуникации.
В ходе проекта мы разобрались в возможностях и ограничениях RASA:
Поскольку клиент планирует предоставлять услуги европейским медицинским клиникам, у клиента были требования к мультиязычности. Клиент планировал поддержку немецкого, английского, русского и турецкого языков.
Наш прототип успешно понимает два языка – английский и русский.
Для нашей команды было интересным опытом поработать с Rasa. Эта платформа полностью оправдала ожидания и позволила создать нам умный, контекстно осведомленный чат-бот, который смог адаптироваться под различные задачи клиента.
Мы получили практический опыт настройки и интеграции Rasa с внешними сервисами, что теперь позволяет нам уверенно предлагать прототипы и решения на её базе для других заказчиков.
В рамках работы над прототипом мы проверили гипотезы:
PoC подтвердил жизнеспособность идеи. Система успешно принимала звонки, распознавала запросы и корректно выполняла базовые сценарии: запись на приём, предоставление справочной информации, уточнение даты визита. Время отклика и плавность речи оказались достаточными для реального использования, а локальное развёртывание доказало, что можно обойтись без облачных сервисов и сохранить конфиденциальность персональных данных.
Для клиента это стало подтверждением, что на базе выбранной архитектуры можно строить полноценное MVP.
Хотя проект разрабатывался для медицинских клиник, полученное решение применимо во многих сферах, где важна автоматизация голосовых коммуникаций: от банков и страховых компаний до логистики и госуслуг с высокой степенью конфиденциальности данных клиентов.
Главное отличие от большинства существующих систем — это локальное исполнение, которое гарантирует соблюдение требований к конфиденциальности персональных данных и защищает данные клиентов от утечек. В отличие от облачных сервисов, где данные неизбежно передаются третьим сторонам, наша архитектура остаётся полностью в контуре клиента.