AI-боты в robots.txt: список и настройка на 2026 год

Q: Если заблокировать GPTBot, я выпаду из ответов ChatGPT?

Не обязательно. GPTBot отвечает за сбор данных для обучения, а за ответы в поиске ChatGPT отвечает отдельный бот — OAI-SearchBot. Можно закрыть GPTBot (запретить обучение) и оставить открытым OAI-SearchBot (остаться в ответах). А вот блокировка OAI-SearchBot действительно убирает сайт из поиска ChatGPT.

Q: Влияет ли блокировка AI-ботов на позиции в Google и Яндексе?

Блокировка краулеров обучения (GPTBot, ClaudeBot, Google-Extended, CCBot) на классический поиск не влияет — у Google и Яндекса свои роботы. Но если закрыть Googlebot или YandexBot, сайт выпадет из обычной выдачи, а заодно из AI Overviews и Нейро, которые строятся на основном индексе.

Q: Нужно ли что-то менять в robots.txt для Яндекс Нейро?

Основной YandexBot закрывать нельзя: нейроответы Яндекса строятся на обычной выдаче, и без него вы потеряете и поиск, и Нейро. Отдельно управлять участием в ИИ-инициативах можно через YandexAdditional, не задевая основную индексацию.

Q: Где должен лежать файл robots.txt?

Строго в корне домена — по адресу https://ваш-домен/robots.txt. В подпапке или с другим именем он работать не будет.

Чтобы сайт цитировали ChatGPT, Perplexity и Яндекс Нейро, нейросети сначала должны его прочитать. А чтобы ваш контент не уходил в обучение чужих моделей без спроса — часть ботов нужно, наоборот, закрыть. Управляется и то, и другое одним файлом — robots.txt.

Проблема в том, что большинство владельцев сайтов либо не трогают его вовсе, либо в панике закрывают «всех роботов ИИ» одной строкой — и вместе с краулерами обучения случайно вырубают тех ботов, которые приводят клиентов из нейропоиска. Разница между этими ботами критична, и почти нигде на русском её внятно не объясняют.

Ниже — актуальный на 2026 год список AI-ботов с точными user-agent, понятная классификация по компаниям и готовые конфигурации robots.txt под конкретные цели. Можно копировать и вставлять.

Главное за 30 секунд

AI-боты бывают трёх типов: краулеры обучения (забирают контент в датасеты), поисковые краулеры (цитируют вас в ответах ИИ и приводят трафик) и пользовательские фетчеры (подгружают страницу по запросу конкретного человека).
Хотите трафик из ИИ — нельзя блокировать поисковые краулеры. Самая дорогая ошибка: закрыть OAI-SearchBot и выпасть из поиска ChatGPT, даже если когда-то вас уже обучили.
Блокировка обучения не вредит обычному SEO. Закрыть Google-Extended можно без риска для позиций в Google — это разные краулеры. А вот Googlebot и YandexBot трогать нельзя.
robots.txt управляет доступом, но не защищает. Дисциплинированные боты (OpenAI, Anthropic, Google) правила соблюдают; серые скраперы — игнорируют. Для реальной защиты нужен уровень сервера или Cloudflare.
По умолчанию сайт открыт для всех ботов. Если в robots.txt про бота ничего не сказано — он считается разрешённым.

Зачем вообще управлять доступом AI-ботов

У управления доступом две противоположные задачи, и важно понимать, какая из них ваша — потому что решения прямо противоположные.

Задача 1. Попасть в ответы нейросетей (видимость). Нейропоиск и ИИ-ассистенты всё чаще заменяют классическую выдачу: пользователь получает готовый ответ со ссылкой на источник и не идёт листать десять синих ссылок. Чтобы стать таким источником, нужно, чтобы поисковые краулеры ИИ беспрепятственно читали ваш сайт. Это новая воронка трафика поверх SEO — её называют GEO (Generative Engine Optimization).

Задача 2. Не отдавать контент на обучение (защита). Краулеры обучения скачивают ваши тексты, изображения и данные, чтобы натренировать на них модель. Атрибуции и трафика взамен вы не получаете — контент просто растворяется в весах нейросети. Медиа, образовательные проекты и авторы premium-контента такие краулеры часто закрывают — в 2025–2026 годах ряд российских СМИ массово закрыл сайты от краулеров Яндекса и OpenAI именно по этой причине.

Ключевой момент: эти две задачи не конфликтуют. Можно одновременно пустить поисковые краулеры (чтобы вас цитировали) и закрыть краулеры обучения (чтобы не учились бесплатно). Блокировка одних никак не влияет на работу других — это разные user-agent.

Три типа AI-ботов — и почему их нельзя стричь под одну гребёнку

Это главная идея статьи. Если запомнить только одно — запомните таблицу ниже.

Тип бота	Что делает	Что вам даёт	Решение для бизнеса
Краулер обучения	Скачивает контент в обучающий датасет модели	Ничего: ни ссылки, ни трафика	Можно закрыть, если жаль контент
Поисковый краулер	Индексирует сайт для ответов ИИ и цитирует источник	Трафик и упоминания из нейропоиска	Держать открытым — это и есть GEO
Пользовательский фетчер	Подгружает конкретную страницу, когда на неё дал ссылку человек в чате	Прямые переходы заинтересованных людей	Почти всегда оставлять открытым

Дальше — разбор по основным компаниям: у каждой свои боты под каждую задачу, и именно здесь чаще всего блокируют не то, что хотели.

OpenAI (ChatGPT)

GPTBot — собирает данные для обучения моделей GPT. Можно закрыть, если против обучения.
OAI-SearchBot — индексирует сайт для поиска и ответов ChatGPT. Это ваш билет в ответы ChatGPT — не блокируйте.
ChatGPT-User — заходит, когда пользователь в чате просит открыть вашу ссылку. Тёплый интент, оставляйте открытым.

Anthropic (Claude)

ClaudeBot — краулер обучения моделей Claude.
Claude-SearchBot — индексирует сайт для веб-поиска Claude. Держите открытым для видимости.
Claude-User — фетч по запросу пользователя Claude.

Perplexity

PerplexityBot — индексирует сайт для ответов Perplexity. Ключевой для попадания в выдачу Perplexity.
Perplexity-User — подгружает страницу по запросу пользователя.

Google

Googlebot — обычный поиск Google и основа AI Overviews. Отдельно отключить AI Overviews, не потеряв обычный поиск, нельзя — они работают на том же индексе.
Google-Extended — управляет только обучением Gemini. Закрытие не влияет на ранжирование в поиске Google и на попадание в AI Overviews.

Актуальные имена и диапазоны OpenAI публикует в официальной документации по ботам — если сомневаетесь в user-agent, сверяйтесь с первоисточником.

Полный список AI-ботов и их user-agent (2026)

Список ниже сгруппирован по типу — так с ним удобно работать при настройке robots.txt. User-agent указаны точно, как их нужно прописывать в директиве User-agent:.

Краулеры обучения моделей

User-agent	Владелец	Назначение
`GPTBot`	OpenAI	Сбор данных для обучения GPT
`ClaudeBot`	Anthropic	Обучение моделей Claude
`Google-Extended`	Google	Обучение Gemini (не влияет на обычный поиск Google)
`Applebot-Extended`	Apple	Обучение Apple Intelligence
`Meta-ExternalAgent`	Meta	Обучение моделей Llama
`CCBot`	Common Crawl	Открытый датасет, на котором учатся почти все
`Bytespider`	ByteDance (TikTok)	Обучение моделей ByteDance
`Amazonbot`	Amazon	Обучение и функции Alexa
`cohere-ai`	Cohere	Обучение языковых моделей
`DeepSeekBot`	DeepSeek	Обучение моделей DeepSeek
`PanguBot`	Huawei	Обучение модели Pangu
`Diffbot`	Diffbot	Извлечение структурированных данных
`YandexAdditional`	Яндекс	Участие в ИИ-инициативах Яндекса

Поисковые краулеры ИИ — держите их открытыми

Именно эти боты решают, попадёте ли вы в ответы нейросетей. Блокировать их — значит добровольно отказаться от трафика из ИИ.

User-agent	Владелец	Где вы появитесь
`OAI-SearchBot`	OpenAI	Поиск и ответы ChatGPT
`Claude-SearchBot`	Anthropic	Веб-поиск Claude
`PerplexityBot`	Perplexity	Ответы Perplexity
`DuckAssistBot`	DuckDuckGo	ИИ-ответы DuckDuckGo
`Youbot`	You.com	Ответы поисковика You.com

Пользовательские фетчеры

Срабатывают, когда конкретный человек просит ассистента открыть вашу ссылку. Это «тёплый» интент — почти всегда стоит оставлять открытым.

User-agent	Владелец
`ChatGPT-User`	OpenAI
`Claude-User`	Anthropic
`Perplexity-User`	Perplexity
`MistralAI-User`	Mistral AI
`Google-NotebookLM`	Google

Учтите: часть пользовательских фетчеров (по заявлениям самих вендоров) может не сверяться с robots.txt, потому что действует «от имени человека», а не как автономный краулер. Это ещё одна причина не полагаться на robots.txt как на защиту — об этом ниже.

Расширенный справочник: ещё AI-боты, которые ходят по сайтам

Помимо ботов крупных нейросетей, контент собирают десятки сервисов поменьше — для своих моделей, датасетов и аналитики. Если настраиваете полную защиту, имеет смысл закрыть и их.

User-agent	Владелец	Назначение
`Meta-ExternalFetcher`	Meta	Подгрузка контента для функций ИИ
`Omgilibot`	Webz.io	Сбор данных для ИИ-продуктов
`ImagesiftBot`	ImageSift	Сбор изображений в датасеты
`TikTokSpider`	ByteDance	Обучение моделей
`SemrushBot-OCOB`	Semrush	Анализ контента для ИИ-функций
`PetalBot`	Huawei	Индексация и ИИ-сервисы
`TurnitinBot`	Turnitin	Антиплагиат
`AI2Bot`	Allen Institute for AI	Исследовательский датасет
`DataForSeoBot`	DataForSEO	SEO- и маркет-аналитика
`Google-CloudVertexBot`	Google	Обучение моделей Vertex AI
`bedrockbot`	Amazon	Обучение моделей (Bedrock)
`FirecrawlAgent`	Firecrawl	Подготовка данных для LLM
`Brightbot`	Bright Data	Сбор веб-данных
`Timpibot`	Timpi	Децентрализованный поисковый индекс
`ICC-Crawler`	NICT	Исследования и разработка ИИ
`AwarioBot`	Awario	Соцмониторинг и анализ
`cohere-training-data-crawler`	Cohere	Сбор обучающих данных
`Kangaroo Bot`	Kangaroo LLM	Обучение LLM
`YandexAdditionalBot`	Яндекс	ИИ-инициативы Яндекса

Список пополняется — новые краулеры появляются буквально ежемесячно, и держать robots.txt в актуальном состоянии вручную тяжело. Сверяться с поддерживаемым реестром удобно по справочнику robotstxt.com/ai, а доступ к своему сайту — проверять нашим расширением (см. ниже).

Готовые конфигурации robots.txt

Файл должен лежать в корне сайта: https://ваш-домен/robots.txt. Выберите сценарий под свою задачу и скопируйте блок целиком.

Рецепт A. Хочу в ответы ИИ, но против обучения на моём контенте

Самый частый запрос бизнеса: «пусть цитируют и приводят клиентов, но пусть не учатся на моих текстах бесплатно». Разрешаем поисковые краулеры, закрываем краулеры обучения.

# Разрешаем ИИ-поисковикам читать и цитировать сайт
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: DuckAssistBot
Allow: /

# Закрываем краулеры обучения моделей
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Amazonbot
Disallow: /

Рецепт B. Максимальная видимость — пускаю всех

Если контент не жалко, а цель — попасть в максимум ИИ-ответов, ничего блокировать не нужно. По умолчанию всё уже открыто, но можно зафиксировать намерение явно:

User-agent: *
Allow: /

Sitemap: https://ваш-домен/sitemap.xml

Это рабочая стратегия для большинства коммерческих сайтов и блогов: упоминание бренда в ChatGPT или Нейро почти всегда ценнее гипотетического «ущерба» от обучения.

Рецепт C. Полная защита — закрываю весь ИИ

Для медиа и проектов, которые торгуют контентом. Несколько строк User-agent подряд перед одной директивой Disallow — это валидная группа, правило применяется ко всем перечисленным.

User-agent: GPTBot
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-SearchBot
User-agent: Claude-User
User-agent: Google-Extended
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: CCBot
User-agent: Bytespider
User-agent: Amazonbot
User-agent: Applebot-Extended
User-agent: Meta-ExternalAgent
Disallow: /

Внимание. В рецепте C вы закрываете и поисковые краулеры — то есть сознательно отказываетесь от трафика из нейросетей. Не используйте его «на всякий случай»: если бизнесу нужны клиенты из ИИ, это прямой выстрел себе в ногу.

Помимо robots.txt: другие способы управлять AI-ботами

robots.txt — основной, но не единственный инструмент. Вот что ещё работает, и насколько каждому методу можно доверять.

Частичный доступ — закрыть только часть сайта

Не обязательно открывать или закрывать сайт целиком. Можно пустить бота в блог, но закрыть каталог с уникальными данными:

User-agent: GPTBot
Allow: /blog/
Disallow: /

HTTP-заголовок X-Robots-Tag

Если доступа к robots.txt нет или нужно закрыть отдельные ответы сервера (PDF, файлы, ответы API), управлять можно заголовком на стороне сервера. Читают его не все AI-боты, но крупные ориентируются:

X-Robots-Tag: noai, noimageai

Мета-теги noai / noimageai

Сообщество предложило мета-теги noai и noimageai — их ставят в <head> страницы. Важно: это неофициальный стандарт, его соблюдают далеко не все площадки. Как дополнительный сигнал годится, как гарантия — нет.

<meta name="robots" content="noai, noimageai">

Файл ai.txt

Аналог robots.txt специально для ИИ (инициатива Spawning). Кладётся в корень сайта, синтаксис похожий. Распространён слабо — как дополнительный сигнал годится, как основной механизм рассчитывать на него рано.

Новые директивы DisallowAITraining / AllowAITraining

В 2026 году в robots.txt начали продвигать отдельные директивы специально под обучение ИИ — DisallowAITraining и AllowAITraining (инициативу поддерживают Cloudflare и ряд площадок). Идея — отделить «не учиться на контенте» от «не заходить вовсе». Стандарт ещё не финализирован, и крупные краулеры пока ориентируются на привычные User-agent + Disallow. Поэтому полагаться только на новые директивы рано — дублируйте их классическими правилами.

Если боты создают нагрузку на сервер

Нейрокраулеры иногда обходят сайт агрессивно и создают лишнюю нагрузку. Частично помогает Crawl-delay в robots.txt (его читают не все боты), но надёжнее ограничивать частоту запросов на уровне сервера или Cloudflare.

Влияет ли блокировка AI-ботов на обычное SEO?

Короткий ответ: блокировка краулеров обучения на классический поиск не влияет, а блокировка основных поисковых роботов — убивает и поиск, и ИИ-ответы. Разберём по пунктам, потому что здесь чаще всего и ломают сайт.

Закрыли Google-Extended? Позиции в Google не пострадают. Это отдельный краулер для обучения Gemini, к ранжированию он отношения не имеет.
Закрыли Googlebot? Сайт выпадет из поиска Google целиком — и заодно из AI Overviews, потому что они строятся на том же индексе. Так делать нельзя.
Закрыли YandexBot? Потеряете и обычную выдачу Яндекса, и Нейро (он берёт источники из топа). Тоже нельзя.
Закрыли GPTBot, ClaudeBot, CCBot? На Google и Яндекс это не влияет — у них свои роботы. Вы лишь запретили обучение на вашем контенте.

Вывод: основные поисковые роботы (Googlebot, YandexBot) не трогаем никогда. Управление AI-ботами идёт поверх классического SEO, а не вместо него.

AI-боты Яндекса и российские нюансы

Для рунета это отдельная история, и её часто путают.

Нейро (Поиск с Алисой) строится на обычной выдаче. Чтобы попасть в нейроответы Яндекса, нужно быть в топе по запросу — а значит, должен беспрепятственно работать основной YandexBot. Если вы закроете YandexBot, вы потеряете и обычный поиск, и Нейро одновременно. Поэтому его не трогаем.

YandexAdditional / YandexAdditionalBot отвечают за участие в дополнительных ИИ-инициативах Яндекса. Их можно закрыть отдельно, не задев основную индексацию и попадание в Нейро. Как именно Яндекс трактует директивы robots.txt — описано в справке Яндекс Вебмастера.

Практический вывод для большинства российских сайтов: основной YandexBot держим открытым всегда, а решение про обучение принимаем точечно через дополнительные user-agent. Управление доступом ботов — лишь техническая база; чтобы реально попадать в Нейро, нужна работа над структурой и экспертностью контента, и это мы подробно разбираем в полном гайде по GEO и AEO.

Шпаргалка: цель → что прописать

Сверьтесь с этой таблицей перед тем, как сохранять robots.txt.

Ваша цель	Что сделать в robots.txt
Попасть в ответы ChatGPT	Не блокировать `OAI-SearchBot` и `ChatGPT-User`
Попасть в ответы Perplexity	Не блокировать `PerplexityBot`
Попасть в веб-поиск Claude	Не блокировать `Claude-SearchBot`
Попасть в Яндекс Нейро	Не блокировать `YandexBot` (и быть в топе выдачи)
Попасть в Google AI Overviews	Не блокировать `Googlebot`
Запретить обучение на контенте	`Disallow` для `GPTBot`, `ClaudeBot`, `Google-Extended`, `CCBot`, `Bytespider`
Закрыть весь ИИ полностью	`Disallow` всем AI user-agent (рецепт C)
Не потерять обычный поиск	Никогда не блокировать `Googlebot` и `YandexBot`

5 ошибок, из-за которых сайт вылетает из ответов ИИ

Заблокировать OAI-SearchBot вместе с GPTBot. Самая дорогая ошибка. Даже если ваш контент уже использовали для обучения, блокировка поискового бота убирает вас из живых ответов ChatGPT. Обучение и поиск — независимы.
Закрыть всё одной строкой User-agent: * / Disallow: / «чтобы не воровали». Так вы закрываете не только ИИ, но и Google с Яндексом — сайт исчезает из поиска целиком.
Считать, что robots.txt защищает контент. Он лишь просит вежливых ботов не заходить. Серые скраперы читают сайт, игнорируя файл.
Опечатки в user-agent. Chat-GPT, GPT-Bot, Perplexity Bot с пробелом — несуществующие имена. Бот не узнаёт себя в правиле и спокойно заходит. Сверяйтесь с таблицами выше.
Положить файл не в корень. robots.txt читается только по адресу /robots.txt в корне домена. В подпапке он не работает.

Важная правда: robots.txt не защищает контент

Скажем прямо, потому что на этом многих вводят в заблуждение. robots.txt — это вежливая просьба, а не замок. Крупные игроки (OpenAI, Anthropic, Google, Perplexity) её соблюдают и публично это декларируют. Но десятки серых скраперов и парсеров просто игнорируют файл — они прочитают всё, что отдаёт сервер.

Если задача — действительно не отдать контент, robots.txt недостаточно. Нужны меры уровнем выше:

блокировка по user-agent и IP на стороне веб-сервера (nginx, Apache);
правила и Bot Management в Cloudflare или аналогах (в том числе их функция «блокировать AI-скраперы» в один клик);
отдача контента только авторизованным пользователям (paywall, личный кабинет).

То есть: robots.txt — для управления видимостью у дисциплинированных ботов; защита от воровства — это отдельный технический слой. Путать их — типичная и опасная ошибка.

Как проверить, что вы всё настроили правильно

После правки robots.txt важно убедиться, что вы открыли именно тех ботов, кого хотели, и не закрыли лишнего. Три способа — от быстрого к точному:

Быстрый способ. Наше бесплатное расширение PrivateSEO AI Auditor для Chrome показывает доступность сайта для ключевых AI-ботов прямо на открытой странице — GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, YandexBot, Google-Extended и других. Не нужно вручную разбирать robots.txt: видно сразу, кто пущен, а кто закрыт. Это и есть проверка GEO-доступности сайта в один клик.

PrivateSEO AI Auditor — доступ AI-ботов
GPTBot✓ разрешён
OAI-SearchBot✓ разрешён
ClaudeBot✗ заблокирован
PerplexityBot✓ разрешён
YandexBot✓ разрешён
Google-Extended✗ заблокирован

Иллюстрация: так расширение показывает доступ AI-ботов к открытой странице — зелёный «разрешён», красный «заблокирован».

Глазами. Откройте https://ваш-домен/robots.txt в браузере и сверьте user-agent с таблицами из этой статьи — нет ли опечаток, на месте ли поисковые краулеры.
Расширением. Установите PrivateSEO AI Auditor и проверяйте доступ AI-ботов на любой странице за секунды.
Полным аудитом. Бесплатный онлайн-аудит проверит robots.txt в связке с остальной технической базой — индексацией, скоростью, разметкой. Все наши инструменты — в каталоге.

robots.txt — необходимый, но не достаточный шаг

Открыть ботам дверь — обязательное условие, но само по себе оно не приведёт вас в ответы ИИ. Нейросети цитируют не «доступные» сайты, а понятные и авторитетные: с чёткой структурой, прямыми ответами на вопросы, экспертным авторством и упоминаниями бренда в сети.

robots.txt — это вход. Дальше начинается собственно GEO: контент, который нейросеть выбирает в качестве источника. Если хотите системно занять место в ответах ChatGPT, Perplexity и Яндекс Нейро — посмотрите, как мы это делаем в рамках услуги продвижения в нейросетях, или начните с разбора в полном гайде по GEO и AEO.

А если у вас интернет-магазин — есть прикладной разбор: как товарам попасть в рекомендации нейросетей.

Частые вопросы

Что такое AI-боты и зачем им robots.txt?

AI-боты — это краулеры нейросетей, которые читают сайты для обучения моделей, для ответов в ИИ-поиске или по запросу пользователя в чате. robots.txt — файл в корне сайта, через который владелец указывает каждому такому боту по его user-agent, можно ли заходить. Это стандартный способ управлять доступом нейросетей к сайту.

Если заблокировать GPTBot, я выпаду из ответов ChatGPT?

Не обязательно. GPTBot отвечает за сбор данных для обучения, а за ответы в поиске ChatGPT отвечает отдельный бот — OAI-SearchBot. Можно закрыть GPTBot (запретить обучение) и оставить открытым OAI-SearchBot (остаться в ответах). А вот блокировка OAI-SearchBot действительно убирает сайт из поиска ChatGPT.

Как разрешить нейросетям читать сайт?

По умолчанию сайт уже открыт для всех ботов — если в robots.txt про конкретного бота ничего не написано, доступ разрешён. Чтобы гарантированно пустить ИИ-поисковики, не блокируйте OAI-SearchBot, Claude-SearchBot, PerplexityBot и убедитесь, что нет общего правила User-agent: * / Disallow: /.

Влияет ли блокировка AI-ботов на позиции в Google и Яндексе?

Блокировка краулеров обучения (GPTBot, ClaudeBot, Google-Extended, CCBot) на классический поиск не влияет — у Google и Яндекса свои роботы. Но если закрыть Googlebot или YandexBot, сайт выпадет из обычной выдачи, а заодно из AI Overviews и Нейро, которые строятся на основном индексе.

Защищает ли robots.txt мой контент от обучения ИИ?

Только частично. Крупные компании (OpenAI, Anthropic, Google) соблюдают robots.txt, поэтому их краулеры обучения вы закроете. Но серые скраперы файл игнорируют. Для реальной защиты нужна блокировка на уровне сервера или через Cloudflare, либо доступ к контенту только по авторизации.

Нужно ли что-то менять в robots.txt для Яндекс Нейро?

Основной YandexBot закрывать нельзя: нейроответы Яндекса строятся на обычной выдаче, и без него вы потеряете и поиск, и Нейро. Отдельно управлять участием в ИИ-инициативах можно через YandexAdditional, не задевая основную индексацию.

Где должен лежать файл robots.txt?

Строго в корне домена — по адресу https://ваш-домен/robots.txt. В подпапке или с другим именем он работать не будет.