Файл robots.txt - повне керівництво від Yoast

Що таке robots.txt?
Що робить файл robots.txt?
Куди мені покласти мій файл robots.txt?
Плюси і мінуси використання robots.txt
Мінус: сторінка не видаляється з результатів пошукової видачі
Мінуси: не поширюється цінність посилання
синтаксис robots.txt
Директиви User-agent
Директива Disallow
Як використовувати шаблони / регулярні вирази
Чи не стандартизовані директиви сканування robots.txt
Директива Allow
Директива noindex
Директива host
Директива crawl-delay
Директива sitemap для XML карт сайту
Валідація вашого robots.txt

Навіть у досвідчених користувачів WordPress іноді виникають питання по грамотній настройці файлу robots.txt Для вас сьогодні ультимативний керівництво від компанії Yoast яка напевно відома багатьом по найпопулярнішому SEO плагіну - Yoast SEO for WordPress . Ну кому ж ще як не їм розповісти нам про це горезвісному файлі. Перед вами повний переклад авторської статті. Вникайте, друзі!

[Toc]

Файл robots.txt - це один з головних способів, сказати пошуковим системам, куди їм можна заходити на вашому сайті, а куди ні. Всі основні пошукові системи підтримують головну функціональність, яку він пропонує. Також є кілька додаткових правил, які використовуються пошуковими системами і можуть вам стати в нагоді. Цей гайд допоможе вам навчитися з robots.txt.

Що таке robots.txt?

Robots.txt - це текстовий файл, який слід строгому синтаксису, завдяки якому пошукові роботи можуть читати його. Синтаксис строгий, так як його повинен розуміти комп'ютер. Нікого читання між рядків - або, 1, або 0. Названий також «протоколом винятків для роботів» файл robots.txt - це результат домовленості між першими розробниками пошукових роботів. Хоч і не існує жодного офіційного стандарту, запропонованого якоюсь організацією, найбільші пошукові системи дотримуються цей протокол.

Що робить файл robots.txt?

Пошукові системи індексують сторінки, існуючі в інтернеті, скануючи їх своїми ботами. Вони слідують посиланнями, щоб переходити з одного сайту на інший. Перед тим, як просканувати будь-яку сторінку за допомогою бота, на домені, з яким пошукова система ніколи не стикалася раніше, відкривається файл robots.txt, що належить домену. Файл robots.txt говорить пошуковим системам, які URL сайту можна індексувати. Пошукова система буде не тільки кешувати контент robots.txt, але і освіжати його безліч разів в день. Так що зміни будуть відображатися дуже швидко.

Куди мені покласти мій файл robots.txt?

Файл robots.txt завжди повинен знаходитися в «корені» вашого домену. Якщо ваш домен www.example.com, то файл повинен знаходитися за адресою http://www.example.com/robots.txt. Попереджаємо: якщо домен не містить www, то переконаєтеся в тому, що те ж саме відбувається і з файлом robots.txt. Це правило повинне дотримуватися і для http та https. Коли пошуковик хоче прищепити URL http://example.com/test, він захоплює http://example.com/robots.txt. Коли ж він хоче прищепити той же URL, але з https, він захоплює robots.txt з https-версії вашого сайту, яка повинна виглядати так https://example.com/robots.txt. Також важливо, щоб ваш файл називався саме robots.txt, так як ця назва дуже чутливе, і не можна робити в ньому помилки, в іншому разі не буде працювати.

Плюси і мінуси використання robots.txt

Плюс: бюджет сканування

Кожен сайт має «дозвіл» на певну кількість сторінок, яке бот може просканувати на цьому ресурсі, SEO називає цей показник бюджетом сканування. Якщо ви блокуєте якусь частину сайту, не дозволяючи її сканувати, ви зберігаєте цей бюджет для інших областей сайту. Особливо це цінно для сайтів, де багато роботи по SEO-оптимізації.

Мінус: сторінка не видаляється з результатів пошукової видачі

Використовуючи файл robots.txt, ви можете сказати боту, куди йому не варто лізти на вашому сайті. Але ви не можете вказати пошуковій системі, які URL не можна показувати в пошуковій видачі. Це означає, що, не дозволяючи пошуковику сканувати «заблокований» URL, ви не виключаєте URL з результатів пошуку. Якщо пошуковик знаходить достатньо посилань на якийсь URL, то він включить його в результати пошуку. При це він не буде знати, що на цій сторінці.

Якщо ви хочете гарантовано прибрати сторінку з результатів пошуку, вам потрібно використовувати мета тег noindex. Це означає, коли пошуковик наткнеться на тег - noindex, то він зрозуміє, що сторінку не потрібно блокувати, використовуючи robots.txt.

Мінуси: не поширюється цінність посилання

Так як пошукова система не може просканувати сторінку, то вона не може і поширити кількість посилань цінність на посилання ваших блокованих сторінок. Якщо пошукова система може просканувати сторінки без їх індексації, то посилальна цінність може поширитися на всі посилання, знайдені на цих сторінках. Коли сторінка заблокована за допомогою robots.txt, довідкова цінність просто пропадає.

синтаксис robots.txt

Файл robots.txt складається з одного або більше блоків директив, кожен з яких починається рядком, на початку якої стоїть user-agent. "User-agent" - це назва певного пошукового робота, якому адресована директива. Ви також можете створити тільки один блок для всіх пошукових систем, використовуючи шаблон для user-agent, або ж специфічні блоки для певних пошукових систем. Бот пошукової системи завжди підчепить цей специфічний блок, який йому адресований. Блоки виглядають ось так:

User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: bingbot Disallow: / not-for-bing /

Директиви, типу Allow і Disallow не особливо чутливі до зміни регістру, так що не важливо, як писати - в урбанізованих області малими літерами. Але значення - чутливі, так що / photo / - це не те ж саме, що / Photo /. Нам подобається писати директиви з великої літери, щоб вони краще читалися.

Директиви User-agent

Перша ланка кожного блоку директив - це user-agent. User-agent ідентифікує певного бота. Поле user-agent знаходиться навпроти user-agent специфічного бота. Наприклад, найпоширеніший бот від Google має наступний user-agent:

Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html)

Порівняно проста рядок User-agent: Googlebot зробить за вас всю роботу, якщо ви хочете, розповісти даному «павука», що той повинен робити.

Зауважимо, що у більшості пошукових систем є безліч ботів, які використовуються для звичайної індексації, індексації рекламних оголошень, картинок, відео і т. Д.

Пошукові системи завжди вибирають найбільш підходящий блок директив, з усіх запропонованих. Припустимо, у вас є три блоки директив: один для *, інший для Googlebot і третій для Googlebot-News. Якщо у бота вказано user-agent Googlebot-Video, то він вибере обмеження Googlebot. Бот з user-agent Googlebot-News буде використовувати директиви Googlebot-News

Ось вам список найпоширеніших user agent для пошукових роботів пошукових систем:

Search engine Field User-agent Baidu General baiduspider Baidu Images baiduspider-image Baidu Mobile baiduspider-mobile Baidu News baiduspider-news Baidu Video baiduspider-video Bing General bingbot Bing General msnbot Bing Images & Video msnbot-media Bing Ads adidxbot Google General Googlebot Google Images Googlebot-Image Google Mobile Googlebot-Mobile Google News Googlebot-News Google Video Googlebot-Video Google AdSense Mediapartners-Google Google AdWords AdsBot-Google Yahoo! General slurp Yandex General yandex

Директива Disallow

Другий рядок кожного блоку директив - це рядок Disallow. Ви можете використовувати одну або кілька таких рядків, вказуючи які області сайту не можуть сканувати певні боти. Порожній рядок Disallow означає, що ви не заборонили нічого, і бот може сканувати весь сайт.

User-agent: * Disallow: /

Приклад, наведений нижче здатний заблокувати всі пошуковики, які «прислухаються» до robots.txt

User-agent: * Disallow:

Приклад вище, в якому зібрано всього лише один символ, дозволить пошуковим системам сканувати весь сайт

User-agent: googlebot Disallow: / Photo

Приклад вище заборонить Google сканувати папку з картинками і все, що в ній є. Це означає, що всі підкатегорії також будуть заблоковані. Потрібно писати саме / Photo, а не просто photo, так як тут регістр має значення.

Як використовувати шаблони / регулярні вирази

«Офіційно» стандарт robots.txt не підтримує регулярні вирази або шаблони. Але як би там не було, все пошуковики розуміють їх. Це означає, ви можете мати подібні рядки для блокування груп файлів:

Disallow: /*.php Disallow: /copyrighted-images/*.jpg

В наведеному вище прикладі * дозволяє захопити все те, що відповідає імені файлу. Зауважимо, що залишок рядка все ще чутливий до на регістр, так що рядок вище не блокуватиме файл, який називається /copyrighted-images/example.JPG

Деякі пошуковики, наприклад, Google, дозволяють ще більше ускладнити регулярні вирази, але все ж не всі пошукові системи вловлюють дану логіку. Найкорисніша функція - це додавання $, що означає закінчення URL. Даний приклад ілюструє застосування цієї функції:

Disallow: /*.php$

Це означає, що /index.php НЕ буде індексуватися, а /index.php?p=1 якраз буде індексуватися. Природно, це може стати в нагоді тільки в певних обставинах, і несе в собі певну небезпеку: просто розблокувати то, що ви, загалом, не хочете що було розблоковано.

Чи не стандартизовані директиви сканування robots.txt

Крім директив Disallow і User-agent є ще парочка директив, які ви можете використовувати. Ці директиви не підтримуються ботами всіх пошукових систем, так що майте це на увазі.

Директива Allow

Здається, що більшість пошукових систем розуміють дану директиву, не дивлячись на те, що її немає в оригінальній «специфікації». Крім того вона дозволяє створювати дуже прості і читабельні команди типу цієї:

Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php

Єдиний спосіб домогтися того ж самого без використання директиви allow - це відключити від індексації кожен файл в папці wp-admin окремо.

Директива noindex

Це одна з тих менш відомих директив, яку підтримує Google. Ми думаємо, що це досить небезпечна штука. Якщо ви хочете отримати будь-яку сторінку з результатів пошуку, то у вас, мабуть, є на це вагомі причини. Дані метод дозволяє виключити будь-яку сторінку тільки з поля зору пошукової системи Google, в той час як вона все ще відкрита іншим пошуковим машинам. Зауважимо, що Google підтримує noindex неофіційно, так що якщо це працює зараз, то не факт що буде працювати потім.

Директива host

Директива підтримується Yandex, але не підтримується Google. Вона дозволяє вам вирішити, яку версію сайту повинен видавати пошук: example.com або www.example.com. Ось як виглядає цей трюк:

host: example.com

Так як тільки Yandex підтримує цю директиву, то не варто на неї особливо покладатися. Краще рішення, яке буде працювати для всіх пошукових систем - це використання 301 редіректу. У нашому випадку ми використовуємо даний редирект для перенаправлення з www.yoast.com на yoast.com.

Директива crawl-delay

Так як дана директива підтримується Yahoo !, Bing і Yandex, вона може бути дуже корисна для того, щоб притримати цю трійцю, часто занадто голодну до сканування всього підряд на вашому сайті.

Зіткнувшись з цією рядком Yahoo! і Bing чекатимуть 10 секунд після проведеного сканування. Yandex буде отримувати доступ до вашого сайту один раз в 10 секунд. Ось приклад, такого рядка до директиви crawl-delay:

crawl-delay: 10

Варто зауважити, що якщо ви встановите 10-ти секундну затримку сканування, то ви дозволите пошуковим системам індексувати 8,640 сторінок в день. Здавалося б це дуже багато для невеликого сайту, але в той же час це дрібниця для великого ресурсу.

Директива sitemap для XML карт сайту

Використовуючи дану директиву, ви можете сказати певним пошуковим системам - Bing, Yandex і Google - де знаходиться ваша XML карта сайту. Також ви можете надіслати ваші XML карти кожному пошуковику, використовуючи інструменти веб-майстра кожної пошукової системи. Якщо ж ви не хочете використовувати інструменти веб-майстра, то просто додайте відповідний рядок в ваш robots.txt

Валідація вашого robots.txt

Існує безліч різних інструментів, які дозволять вам валідувати ваш robots.txt, але коли справа стосується валідації директив сканування, ми використовуємо інструмент для тестування robots.txt від Google, який знаходиться в Google Search Console (під Crawl menu):

Перед тим, як пустити в хід свій оновлений robots.txt, обов'язково протестуйте всі зміни, щоб не закрити від індексації весь сайт.

джерело

Txt?
Txt?
Txt?
Txt?
Txt?
Txt?
Php?