Рекомендации по наполнению выборки Агента

Обучающая выборка Интента

Обучающая выборка – это фразы с одинаковым или близким смыслом, с помощью которых человек может высказать конкретное намерение (Интент), и на которых обучается модель NLU с целью распознавания этих и всех прочих вариантов высказывания того же намерения (Интента). От качества Обучающей выборки напрямую зависит качество распознавания в Агенте.

Цель, к которой нужно стремиться при составлении выборки – дать Агенту как можно больше разнообразных вариантов формулировки намерения (но в пределах 30 фраз).

Агент, обученный на конкретной Обучающей выборке, будет распознавать не только Реплика Собеседника, полностью повторяющие Обучающие фразы из выборки, но и Реплики, близкие по смыслу.

Рекомендации по наполнению выборки

Для успешного распознавания рекомендуется:

  1. Подобрать от 10 до 30 обучающих фраз-примеров к каждому Интенту.

  2. Обучающие примеры одного Интента должны быть синонимичны друг другу – обозначать одно и то же намерение.

  3. Обучающие примеры должны представлять собой набор фраз, осмысленных предложений, а не набор ключевых слов или тематик.

  4. Обучающая выборка должна быть разнообразной. Для этого следует использовать различные синонимы к словам и различные формулировки намерений.

  5. Фразы из обучающей выборки должны звучать реалистично. Для того чтобы понять, как Собеседники формулируют вопросы, можно, к примеру, просмотреть историю общения Собеседников с консультантом или оператором поддержки в чате.

Рекомендации по списку Интентов

Очень важно не только грамотно наполнить Обучающую выборку Интентов, но и корректно составить список самих Интентов:

  1. Близкие по смыслу Интенты стоит объединять. Если выборки разных Интентов будут очень близки по смыслу, с большой вероятностью NLU будет "путаться" между ними, т.е. Реплики, которые могут относиться к одному из них, NLU может отнести к fallback-у.

  2. Интенты, содержащие различные по смыслу намерения, стоит разделять. Интент, который содержит множество хоть и относящихся к одной тематике, но все же различных намерений, лучше разделить на несколько отдельных. Таким образом NLU Агента сможет более точно составить представление о смысле каждого Интента и более точно распознавать их в будущем.

Залог качественного распознавания в Агенте - это не только грамотно составленный список Интентов и Обучающая выборка, но и тестирование. Подробнее: Тестирование сценария АгентаТестирование и улучшение распознавания Агента: подбор Confidence threshold

Важно: необходимо избегать случайного совпадения Обучающих фраз в выборках разных Интентов – если в разных Интентах находится одна и та же Обучающая фраза, то совпадающая с ней Реплика Собеседника будет отнесена NLU к одному из этих Интентов случайным образом.

Last updated