Мы используем файлы cookie для улучшения работы сайта. Продолжая пользоваться сайтом, вы соглашаетесь с политикой конфиденциальности.
Базы знаний: полное руководство
Разбираемся, как работают базы знаний на платформе: что это, как устроен поиск, как создать свою базу, подключить её к ассистенту и получить максимум пользы. Пошаговые инструкции, лимиты и советы по улучшению качества ответов.
Что такое база знаний
База знаний - это набор ваших файлов (PDF, DOCX, TXT, таблицы), которые загружаются на платформу, разбиваются на фрагменты и индексируются. Когда вы задаёте вопрос ассистенту, система ищет в этих фрагментах самую подходящую информацию и подставляет её в контекст - так ассистент отвечает не «из головы», а на основе ваших реальных документов.
Технически это называется RAG (Retrieval-Augmented Generation) - «генерация с подкреплением поиском».
Схема простая: вы спрашиваете · система ищет · Ассистент отвечает с опорой на найденное.
Два сценария использования
Сценарий 1: База знаний внутри ассистента
Вы создаёте ассистента (например, «Юрист РФ»), загружаете в его базу знаний юридические документы, кодексы, шаблоны. Теперь каждый пользователь, который общается с этим ассистентом, получает ответы на основе этих документов.
Когда это нужно: вы строите продукт, сервис или инструмент для других людей. Например, бот техподдержки компании, юридический консультант, помощник по внутренним регламентам.
Сценарий 2: Своя база знаний, подключаемая к любому ассистенту
Вы создаёте базу знаний для себя - загружаете туда свои файлы (конспекты, книги, рабочие документы). Дальше подключаете её к любому ассистенту на платформе через кнопку «+» и выбираете «Моя База Знаний». Ассистент начинает учитывать ваши документы при ответе.
Когда это нужно: вы хотите, чтобы чужой ассистент знал ваш контекст. Например, подключить свои заметки по проекту к ассистенту-аналитику. Или подключить книгу к ассистенту, чтобы обсуждать её содержание.
Как устроен поиск
Когда вы отправляете сообщение, происходит следующее:
1. Классификация запроса. Система определяет тип вопроса: конкретный факт, обзорный запрос, сравнение или агрегация (например, «перечисли все...»). От типа зависит стратегия поиска.
2. Многоканальный поиск. Одновременно работают несколько механизмов:
- Точное совпадение - ищет ваши слова буквально в тексте.
- Ключевые слова (BM25) - классический полнотекстовый поиск, как в поисковиках.
- Векторный поиск - переводит ваш вопрос и фрагменты документов в числа (эмбеддинги) и находит смысловые совпадения, даже если слова другие.
3. Ранжирование. Результаты всех каналов объединяются, убираются дубликаты, присваиваются итоговые баллы. Лучшие фрагменты попадают в контекст ассистента.
4. Ответ. Ассистент видит найденные фрагменты и формирует ответ на их основе.
Как работает приоритет при двух базах
Если у ассистента есть своя база знаний и вы подключили свою:
- Сначала ищет в базе ассистента - она получает основной бюджет токенов.
- Затем ищет в вашей подключённой базе - она получает оставшийся бюджет.
- Контекст из ассистентской базы идёт первым, ваш - вторым с пометкой «дополнительная база знаний пользователя».
Ассистентская база не урезается ради вашей. Ваша база работает как дополнение.
Когда две базы улучшают ответ
- Ваш контекст дополняет специализацию ассистента. Вы подключили свой договор к юридическому ассистенту - теперь он анализирует именно ваш документ, а не говорит общими фразами.
- Ассистент общего назначения + ваши данные. Подключили рабочие таблицы к ассистенту-аналитику - он строит выводы на основе ваших цифр.
- Разные аспекты одной темы. Ассистент знает теорию из своей базы, а ваши файлы дают практические примеры.
Когда две базы могут ухудшить ответ
- Конфликт тематик. Юридический ассистент с базой кодексов + ваша художественная книга. Ассистент может растеряться: отвечать по закону или по сюжету романа. Система даёт инструкцию учитывать вашу базу, но результат может быть непредсказуемым.
- Шум в контексте. Если ваша база содержит много нерелевантного - ассистент тратит «внимание» на лишние фрагменты вместо полезных.
- Исчерпание бюджета. У контекста есть лимит. Две базы = больше текста. Если обе базы большие, часть информации может обрезаться.
Простое правило: чем ближе тематика вашей базы к специализации ассистента, тем лучше результат. Чем дальше - тем больше шансов на неожиданный ответ.
Лимиты
Размер контекста
Бюджет делится между:
- Системные инструкции ассистента
- База знаний ассистента
- Ваша подключённая база знаний
- Загруженные файлы в чат
- История переписки
- Ваше сообщение
Если всё вместе не влезает, система умно распределяет бюджет: сначала обязательные части (инструкции, ваш вопрос), потом всё остальное по приоритету.
Количество файлов
В базу знаний можно загружать файлы без жёсткого ограничения по количеству, но:
- Файлы большого объёма (100+ страниц) разбиваются на тысячи фрагментов - поиск работает, но может замедляться.
- Оптимально: до 10-20 файлов в одной базе, суммарно до 500-1000 страниц.
- Если документов много, лучше разбить их на несколько тематических баз.
Скорость поиска
Поиск по базе знаний добавляет 5-30 секунд к времени ответа (зависит от объёма базы). При двух базах это время удваивается. Это видно в аккордеоне «Поиск в базе знаний» - там отображаются шаги и время.
Рекомендации по улучшению работы
Подготовка файлов
- Чистый текст лучше сканов. PDF с текстовым слоем работает хорошо. Скан без OCR - нет.
- Структура важна. Документ с заголовками, разделами и списками индексируется точнее, чем сплошной текст без форматирования.
- Одна тема - один файл. Не объединяйте разные темы в один документ. Системе легче найти нужное в тематически однородном файле.
- Избегайте дубликатов. Если один и тот же текст есть в трёх файлах - он займёт контекст трижды без пользы.
Формулировка вопросов
- Конкретные вопросы дают конкретные ответы. «Какой штраф за задержку поставки по договору №12?» лучше, чем «Расскажи про договор».
- Используйте термины из документов. Если в вашем файле написано «KPI», а вы спрашиваете про «показатели эффективности» - векторный поиск справится, но точное совпадение работает надёжнее.
- Не задавайте слишком общие вопросы. «О чём этот документ?» заставит систему вытащить случайные фрагменты. Лучше: «Какие основные условия описаны в разделе 3?».
Подключение своей базы к чужому ассистенту
- Подключайте базу с близкой тематикой. Юридические документы к юридическому ассистенту. Код к ассистенту-программисту.
- Если тематика далёкая - формулируйте вопрос чётко. Если вы подключили книгу к юридическому ассистенту и хотите спросить про сюжет - начните вопрос прямо: «Ответь на основе подключённой книги: ...».
- Отключайте базу, когда она не нужна. Нажмите ✕ на индикаторе внизу чата. Лишняя база - лишний шум и время на поиск.
Пошаговые инструкции
Как создать базу знаний
- Перейдите в раздел «Базы знаний» в боковом меню панели управления.
- Нажмите «Создать базу знаний».
- Дайте ей понятное название (например, «Договоры 2024» или «Курс по маркетингу»).
- Загрузите файлы. Поддерживаются PDF, DOCX, TXT, CSV.
- Дождитесь обработки - система разобьёт файлы на фрагменты и создаст индексы. Это может занять от нескольких секунд до нескольких минут в зависимости от объёма.
Как привязать базу к своему ассистенту
- Откройте настройки вашего ассистента.
- В разделе «База знаний» выберите нужную базу из списка.
- Сохраните. Теперь все пользователи этого ассистента будут получать ответы с учётом загруженных документов.
Как подключить свою базу к любому ассистенту
- Откройте чат с любым ассистентом.
- Нажмите кнопку «+» слева от поля ввода.
- Выберите «Моя База Знаний».
- Выберите нужную базу из списка. Внизу появится индикатор с названием подключённой базы.
- Теперь ваши вопросы будут обрабатываться с учётом этой базы.
- Чтобы отключить - нажмите ✕ на индикаторе.
Частые вопросы
Видят ли другие пользователи мою подключённую базу?
Нет. Ваша база подключается только для вашей сессии. Другие пользователи того же ассистента её не видят.
Может ли моя база перезаписать знания ассистента?
Нет. Ассистентская база имеет приоритет. Ваша база - дополнение. Но если ваш вопрос явно касается вашей базы, ассистент обязан это учесть.
Что делать, если ассистент игнорирует мою базу?
Сформулируйте вопрос конкретнее. Упомяните, что вопрос относится к подключённым документам. Например: «На основе моей подключённой базы знаний, ответь: ...».
Сохраняется ли подключение между сессиями?
Нет. При обновлении страницы или переходе в другой чат подключение сбрасывается. Это сделано намеренно, чтобы избежать случайного использования нерелевантной базы.
Сколько баз можно подключить одновременно?
Одну. Если вам нужны данные из нескольких баз - объедините файлы в одну базу.