Comment on page
Запрос на кластеризацию диалогов
Для того чтобы подготовить данные для обучения Бота, мы можем провести кластеризацию имеющихся диалогов с пользователями и клиентами (майнинг инентов). История диалогов разбивается на тематики, и в каждой тематике оказываются примеры реплик Собеседников и готовые ответы на них Оператора. Примеры высказываний Собеседников в дальнейшем включаются в обучающую выборку фраз для интентов, а ответы Оператора используются при прописывании ответов Бота в Диалоговом Сценарии.
Формат данных для кластеризации следующий:
- 1.Таблица формата CSV;
- 2.Каждое сообщение (MESSAGE) располагается в отдельной строке таблицы;
- 3.Каждому диалогу присвоен уникальный ID номер (DIALOG_ID) – ID диалога должен быть числом;
- 4.Все сообщения в каждом отдельном диалоге обладают разметкой того, к кому они относятся (к клиенту или к Оператору): MESSAGE_TYPE равен 0, если это сообщение Собеседника, равен 1, если это сообщение Оператора.
- 5.Сообщения внутри диалога сопровождаются датой и временем отправки: DIALOG_DT.
- 6.Внутри строк сообщения должны быть удалены все кавычки.
