Когда говорят, что «RAG плохо отвечает», в большинстве случаев проблема не в том, как AI формулирует ответ, а в том, какая информация нашлась для этого ответа.
Типичная ситуация:
- вопрос задан корректно,
- ответ звучит разумно,
- но пользователь чувствует: это не совсем то, что нужно.
Причина - сбой на этапе поиска знаний.
AI просто не получил нужные документы, потому что:
- данные разбиты на фрагменты хаотично,
- у документов нет нормальных описаний и тегов,
- поиск идёт сразу по всей базе,
- нужный файл не попадает в контекст ответа.
В итоге модель рассуждает на основе «почти подходящей» информации и закономерно даёт «почти правильный» ответ.
По данным Stanford AI Index, качество поиска информации влияет на точность ответа сильнее, чем выбор самой AI-модели. Разница в точности может достигать 30–40%, даже если используется один и тот же LLM.
Поэтому хороший RAG начинается не с выбора модели, а с того, как именно система ищет и отбирает знания.