Блог — U-BSS

Когда команда впервые делает RAG-поиск на русскоязычной базе, потом «просто переводит на узбекский», получает плохое качество. Причины - в нюансах языка, которые легко упустить.

Ошибка №1: единая embedding-модель для латиницы и кириллицы. На практике одно и то же слово в разных написаниях получает разные векторы. Решение - нормализация на этапе индексации и query.

Ошибка №2: чанкинг строго по символам или токенам. Узбекские предложения часто длиннее русских из-за агглютинации. Чанк должен учитывать смысловые границы - заголовки, разделы регламента.

Ошибка №3: использование embedding-моделей, обученных только на русском или английском. Качество существенно растёт на multilingual-моделях с явной поддержкой тюркских языков.

Ошибка №4: один индекс на оба варианта письма. Лучше держать два, объединять на этапе re-ranking.

Ошибка №5: отсутствие контроля качества. Без регулярных оценок качества (golden set + LLM-as-judge) деградация остаётся невидимой месяцами.

RAG-поиск по узбекским документам: 5 типичных ошибок интегратора