Когда команда впервые делает RAG-поиск на русскоязычной базе, потом «просто переводит на узбекский», получает плохое качество. Причины - в нюансах языка, которые легко упустить.
Ошибка №1: единая embedding-модель для латиницы и кириллицы. На практике одно и то же слово в разных написаниях получает разные векторы. Решение - нормализация на этапе индексации и query.
Ошибка №2: чанкинг строго по символам или токенам. Узбекские предложения часто длиннее русских из-за агглютинации. Чанк должен учитывать смысловые границы - заголовки, разделы регламента.
Ошибка №3: использование embedding-моделей, обученных только на русском или английском. Качество существенно растёт на multilingual-моделях с явной поддержкой тюркских языков.
Ошибка №4: один индекс на оба варианта письма. Лучше держать два, объединять на этапе re-ranking.
Ошибка №5: отсутствие контроля качества. Без регулярных оценок качества (golden set + LLM-as-judge) деградация остаётся невидимой месяцами.