Рекомендации по наполнению выборки Агента
Обучающая выборка Интента
Обучающая выборка – это фразы с одинаковым или близким смыслом, с помощью которых человек может высказать конкретное намерение (Интент), и на которых обучается модель NLU с целью распознавания этих и всех прочих вариантов высказывания того же намерения (Интента). От качества Обучающей выборки напрямую зависит качество распознавания в Агенте.
Цель, к которой нужно стремиться при составлении выборки – дать Агенту как можно больше разнообразных вариантов формулировки намерения (но в пределах 30 фраз).
Агент, обученный на конкретной Обучающей выборке, будет распознавать не только Реплика Собеседника, полностью повторяющие Обучающие фразы из выборки, но и Реплики, близкие по смыслу.
Рекомендации по наполнению выборки
Для успешного распознавания рекомендуется:
Подобрать от 10 до 30 обучающих фраз-примеров к каждому Интенту.
Обучающие примеры одного Интента должны быть синонимичны друг другу – обозначать одно и то же намерение.
Обучающие примеры должны представлять собой набор фраз, осмысленных предложений, а не набор ключевых слов или тематик.
Обучающая выборка должна быть разнообразной. Для этого следует использовать различные синонимы к словам и различные формулировки намерений.
Фразы из обучающей выборки должны звучать реалистично. Для того чтобы понять, как Собеседники формулируют вопросы, можно, к примеру, просмотреть историю общения Собеседников с консультантом или оператором поддержки в чате.
Рекомендации по списку Интентов
Очень важно не только грамотно наполнить Обучающую выборку Интентов, но и корректно составить список самих Интентов:
Близкие по смыслу Интенты стоит объединять. Если выборки разных Интентов будут очень близки по смыслу, с большой вероятностью NLU будет "путаться" между ними, т.е. Реплики, которые могут относиться к одному из них, NLU может отнести к fallback-у.
Интенты, содержащие различные по смыслу намерения, стоит разделять. Интент, который содержит множество хоть и относящихся к одной тематике, но все же различных намерений, лучше разделить на несколько отдельных. Таким образом NLU Агента сможет более точно составить представление о смысле каждого Интента и более точно распознавать их в будущем.
Залог качественного распознавания в Агенте - это не только грамотно составленный список Интентов и Обучающая выборка, но и тестирование. Подробнее: Тестирование сценария АгентаТестирование и улучшение распознавания Агента: подбор Confidence threshold
Важно: необходимо избегать случайного совпадения Обучающих фраз в выборках разных Интентов – если в разных Интентах находится одна и та же Обучающая фраза, то совпадающая с ней Реплика Собеседника будет отнесена NLU к одному из этих Интентов случайным образом.
Last updated