Что получится
Голосовой ИИ-агент принимает входящий звонок, понимает речь клиента, отвечает голосом, задает уточняющие вопросы, создает заявку, записывает итог в CRM и переводит разговор на оператора, если автоматический ответ рискован.
Главная цель первой версии - не заменить весь колл-центр, а закрыть узкий сценарий: принять заявку, ответить на частый вопрос, записать на консультацию, проверить статус заказа или собрать данные перед оператором.
Где голосовой агент полезен
- Входящие заявки: принять звонок в нерабочее время и создать лид.
- Поддержка: понять проблему, найти ответ в базе знаний и передать оператору.
- Запись на прием: уточнить услугу, предложить слот и создать событие в календаре.
- Опросы: собрать короткую обратную связь после услуги.
- Колл-центр: снять типовые вопросы с первой линии.
- Внутренние процессы: голосовой интерфейс для статусов, задач и напоминаний.
Шаг 1. Выберите один сценарий
Голосовой агент сложнее текстового: человек перебивает, говорит шумно, меняет тему, ждет быстрый ответ и раздражается от пауз. Поэтому для старта нужен один сценарий.
Хороший MVP:
- “Принять заявку на консультацию”.
- “Ответить на 10 частых вопросов”.
- “Проверить статус обращения по номеру”.
- “Записать клиента на свободный слот”.
- “Собрать данные и перевести на оператора”.
Плохой MVP: “пусть отвечает на любые звонки вместо менеджеров”. Такой агент быстро начнет ошибаться, зависать и создавать недоверие.
Шаг 2. Выберите телефонию
Для облачного запуска проще использовать Twilio Voice API или похожую платформу телефонии. Она принимает звонок, отправляет webhook на ваш сервер и позволяет управлять call-flow: сказать фразу, записать ответ, соединить с оператором, завершить звонок.
Если у компании уже есть АТС, можно смотреть в сторону Asterisk и его интерфейсов управления. Это гибко, но требует больше администрирования телефонии, SIP, маршрутизации и мониторинга.
Минимальный выбор:
- быстрый MVP - Twilio Voice API;
- корпоративная инфраструктура и своя АТС - Asterisk;
- низкая задержка и живой диалог - speech-to-speech модель или связка STT + LLM + TTS.
Шаг 3. Спроектируйте call-flow
Call-flow - это сценарий звонка, который работает даже если модель ошиблась.
Пример:
- звонок поступает на номер;
- система приветствует клиента;
- предупреждает о записи, если запись включена;
- спрашивает цель звонка;
- распознает ответ;
- классифицирует намерение;
- выполняет безопасное действие;
- при риске переводит на оператора;
- после звонка сохраняет summary и next step.
Не начинайте с бесконечного свободного диалога. Голосовой агент должен вести разговор короткими шагами и подтверждать важные данные.
Шаг 4. Настройте webhook входящего звонка
Когда звонок приходит на номер, телефония отправляет webhook на ваш сервер. Сервер должен быстро вернуть инструкцию, что делать со звонком: проиграть приветствие, подключить поток аудио, записать ответ или перевести вызов.
Минимальный обработчик:
- проверяет подпись webhook;
- создает запись звонка в базе;
- сохраняет номер, направление, call id и время;
- выбирает сценарий;
- возвращает короткий ответ телефонии;
- отправляет дальнейшую обработку в отдельный worker.
Не держите всю логику в одном endpoint. Звонок живой, и любая задержка слышна пользователю.
Шаг 5. Выберите режим речи
Есть два подхода.
- Pipeline: speech-to-text превращает речь в текст, LLM думает, text-to-speech озвучивает ответ.
- Realtime speech-to-speech: модель работает с аудио напрямую и отвечает быстрее, естественнее и с меньшим количеством склеек.
Pipeline проще контролировать и логировать: видно распознанный текст, промпт и ответ. Realtime лучше для живого диалога, где важны перебивания, паузы и скорость.
Для первого business-MVP часто достаточно pipeline. Для “человеческого” голосового ассистента лучше смотреть realtime-архитектуру.
Шаг 6. Сформулируйте правила разговора
Голосовой агент должен говорить короче текстового. Длинные ответы по телефону плохо воспринимаются.
Правила:
- говорить короткими фразами;
- задавать один вопрос за раз;
- подтверждать имена, телефоны, даты и суммы;
- не спорить с клиентом;
- не обещать сроки и условия, которых нет в базе знаний;
- при непонимании максимум два раза уточнить, потом переводить человеку;
- не скрывать, что это автоматизированный помощник, если это требуется процессом или правилами компании.
Шаг 7. Подключите базу знаний и CRM
Голосовой агент должен отвечать не “из головы”, а по источникам.
Подключите:
- базу знаний с частыми вопросами;
- CRM-карточки клиентов;
- статусы заказов или обращений;
- календарь для записи;
- правила эскалации;
- список запрещенных обещаний и тем.
Если пользователь спрашивает про договор, оплату, жалобу, персональные данные или юридические условия, агент лучше переводит на оператора.
Шаг 8. Добавьте инструменты
Голосовой агент становится полезным, когда умеет делать действия.
Примеры tool calls:
{
"tool": "create_lead",
"arguments": {
"phone": "+79990000000",
"name": "Анна",
"topic": "Консультация по AI-агенту",
"preferred_time": "после 15:00"
}
}
Каждый tool должен иметь ограничения: какие поля обязательны, какие действия требуют подтверждения, где нужен оператор, что писать в audit log.
Шаг 9. Настройте перевод на оператора
Handoff - обязательная часть голосового агента. Пользователь должен иметь возможность сказать “соедините с человеком”.
Переводите на оператора, если:
- клиент просит человека;
- агент два раза не понял запрос;
- речь про деньги, договор, возврат, претензию или персональные данные;
- клиент злится;
- confidence низкий;
- действие необратимое;
- телефония или модель работают нестабильно.
Перед переводом оператору полезно передать summary: кто звонит, что хочет, что уже сказал, какие данные собраны и почему был handoff.
Шаг 10. Учитывайте запись и согласие
Звонки часто записывают для качества и разбора ошибок, но правила записи зависят от страны, региона и типа разговора. Проверьте требования для ваших пользователей и добавьте уведомление о записи, если оно нужно.
Практически:
- храните запись только если она действительно нужна;
- ограничьте доступ к аудио;
- удаляйте записи по сроку хранения;
- маскируйте чувствительные данные в транскриптах;
- не отправляйте лишние персональные данные в модель;
- показывайте оператору только нужный фрагмент.
Шаг 11. Логируйте звонок
После звонка у вас должны остаться не только аудио, но и структурированный результат.
- call id;
- номер и направление;
- длительность;
- итог разговора;
- намерение;
- статус: решено, нужна задача, нужен оператор;
- выполненные tool calls;
- ошибки распознавания;
- версия промпта и модели;
- ссылка на запись, если она есть.
Эти данные нужны для мониторинга качества и разбирательства спорных случаев.
Шаг 12. Протестируйте как колл-центр
Проверяйте не только “ответил ли агент”, а весь звонок.
- плохая связь;
- шум на фоне;
- клиент перебивает;
- клиент молчит;
- клиент говорит не по сценарию;
- просьба соединить с человеком;
- попытка prompt injection голосом;
- вопрос про оплату и договор;
- повторный звонок с того же номера;
- падение модели или телефонии.
Для каждого сценария должно быть безопасное поведение: уточнить, извиниться, перевести на оператора или завершить звонок без вредных действий.
Минимальная архитектура
Голосовой ИИ-агент состоит из восьми блоков.
- Voice connector: Twilio Voice API, Asterisk или другая телефония.
- Webhook receiver: принимает события звонка и статусы.
- Audio layer: STT/TTS или realtime speech-to-speech.
- Dialogue manager: держит состояние разговора.
- Knowledge layer: база знаний, CRM, календарь, заказы.
- Policy layer: guardrails, согласие, запреты и handoff.
- Action layer: лид, тикет, встреча, уведомление, перевод оператору.
- Observability: запись, транскрипт, summary, audit log и метрики.
Модель отвечает за понимание речи и формулировки. Расчет правил, права доступа, перевод оператору и критичные действия должны контролироваться кодом.
Частые вопросы
Можно ли сделать голосового агента без телефонии?
Для демо можно сделать web-виджет с микрофоном. Для реальных звонков нужна телефония: Twilio, Asterisk, SIP-провайдер или другая платформа, которая принимает и маршрутизирует вызовы.
Что лучше: STT плюс TTS или speech-to-speech?
STT плюс TTS проще отлаживать и логировать. Speech-to-speech лучше для живого диалога с низкой задержкой. Для первого бизнес-пилота часто удобнее pipeline, а для зрелого голосового ассистента - realtime-подход.
Можно ли агенту самому обещать сроки и цены?
Нет, если эти данные не пришли из проверенного источника. Цены, сроки, договоры, возвраты и персональные данные лучше обрабатывать по базе знаний и правилам, а рискованные случаи переводить оператору.
Как понять, что агент готов к запуску?
Он должен стабильно проходить тестовые звонки: шум, перебивания, молчание, непонятные фразы, просьба оператора, ошибки модели и падение внешних сервисов. Если безопасный fallback работает, можно запускать пилот на ограниченном потоке.
Нужно ли хранить записи звонков?
Не всегда. Запись помогает улучшать качество, но добавляет требования к хранению и доступу. Если запись не нужна, храните только summary и структурированные события. Если нужна, заранее настройте срок хранения, права доступа и уведомление клиента.