Що таке внутрішні дублі сторінок і як з ними боротися?

Поняття дублів сторінок і їх види
Що таке повні дублі?
Що таке часткові дублі?
До чого призводять дублі сторінок на сайті
Каталог засобів для пошуку дубльованих сторінок
Пошук дублів за допомогою спеціальних програм
Використання пошукових операторів
Використання Google Search Console
Як позбутися від дублів
301 редирект
файл robots.txt
Атрибути rel = "next" і rel = "prev"
Метатег <meta name = "robots" content = "noindex, nofollow" і "meta name =" robots "content =" noindex, follow>
Атрибут rel = "canonical"
висновки

Url різні, а контент сторінок однаковий. Думаєте, нічого страшного? Всього лише пара однакових сторінок на сайті. Але однаковий контент може потрапити під фільтри пошукових систем. Щоб цього не сталося, треба знати, як позбавлятися від внутрішніх дублів сторінок.

Поняття дублів сторінок і їх види

Дублі - це окремі сторінки сайту, контент яких повністю або частково збігається. По суті, це копії всієї сторінки або її певної частини, доступні за унікальним URL-адресами.

Що призводить до появи дублів на сайті:

Автоматична генерація дублюючих сторінок движком системою управління вмістом сайту (CMS) веб-ресурсу. наприклад:
http://site.net/press-centre/cat/view/identifier/novosti/
http://site.net/press-centre/novosti/

Помилки, допущені веб-майстрами. Наприклад, коли один і той же товар представлений в декількох категоріях і доступний за різними URL:
http://site.net/category-1/product-1/
http://site.net/category-2/product-1/

Зміна структури сайту, коли вже існуючим сторінок присвоюються нові адреси, але при цьому зберігаються їх дублі зі старими адресами. наприклад:
http://site.net/catalog/product
http://site.net/catalog/category/product

Є два типи дублів: повні та часткові.

Що таке повні дублі?

Це сторінки з ідентичним вмістом, доступні за унікальними, неоднаковим адресами. Приклади повних дублів:

1. URL-адреси сторінок зі Слеш ( «/», «//», «///») і без них в кінці:
http://site.net/catalog///product; http://site.net/catalog//////product.

2. HTTP і HTTPS сторінки: https // site.net; http // site.net.

3. Адреси з «www» і без «www»: http // www.site.net; http // site.net.

4. URL сторінок з index.php, index.html, index.htm, default.asp, default.aspx, home:
http://site.net/index.html;
http://site.net/index.php;
http://site.net/home.

5. URL-адреси сторінок у верхньому і нижньому регістрах:
http://site.net/example/;
http://site.net/EXAMPLE/;
http://site.net/Example/.

6. Зміни в ієрархічній структурі URL. Наприклад, якщо товар доступний за кількома різними URL:
http://site.net/catalog/dir/tovar;
http://site.net/catalog/tovar;
http://site.net/tovar;
http://site.net/dir/tovar.

7. Додаткові параметри і мітки в URL.

URL з GET параметрами: http://site.net/index.php?example=10&product=25. Сторінка повністю відповідає наступною: http://site.net/index.php?example=25&cat=10.
Наявність utm-міток і параметрів gclid. Utm-мітки допомагають надати в систему аналітики інформацію для аналізу і відстеження різних параметрів трафіку. URL цільової сторінки, до якої додаються utm-мітки, виглядають так:
http://www.site.net/?utm_source=adsite&utm_campaign=adcampaign&utm_term=adkeyword
Параметри gclid (Google Click Identifier). Позначка цільових URL, яка додається автоматично для відстеження даних про компанії, каналі та ключових словах в Google Analytics. Наприклад, якщо переходять по вашій об'яві для сайту http://site.net, то адреса переходу відвідувача буде виглядати так: http://site.net/?gclid=123xyz.
Мітка yclid. Допомагає відстежувати ефективність рекламних кампаній в Яндекс Метриці. Мітка дозволяє відстежити дії користувача, який перейшов на сайт по рекламному оголошенню. Ось як виглядає адреса переходу:
http://site.net/?yclid=321.
Мітка openstat. Універсальна і також використовується для аналізу ефективності рекламних кампаній, аналізу відвідуваності сайту і поведінки користувачів на сайті. Посилання з міткою «openstat»:
http://site.net/?_openstat=231645789.
Дублі, які створюються реферальной посиланням. Реферальная посилання це спеціальне посилання з вашим ідентифікатором, по якому сайти розпізнають, від кого прийшов новий відвідувач. наприклад:
https://site.net/register/?refid=398992;
http://site.net/index.php?cf=reg-newr&ref=Uncertainty.

8. Перша сторінка пагінацію каталогу товарів інтернет-магазину або дошки оголошень, блогу. Вона часто відповідає сторінці категорії або загальної сторінці розділу pageall: http://site.net/catalog; http://site.net/catalog/page1.

9. Неправильні налаштування 404 помилки призводять до появи численних дублів. Наприклад: http://site.net/ rococro-23489-rocoroc; http://site.net/ 8888 - ??? .

Виділений жирним текст може вміщати будь-які символи і / або цифри. Сторінки такого виду повинні віддавати код відповіді сервера 404 (не 200) або ж перенаправляти на актуальну сторінку.

Що таке часткові дублі?

У частково дублюються сторінках контент однаковий, але є невеликі відмінності в елементах.

Види часткових дублів:

1. Дублі на картках товарів і сторінках категорій (каталогів). Тут дублі виникають через описів товарів, які представлені на спільній сторінці товарів в каталозі. І ті ж описи представлені на сторінках карток товарів. Наприклад, в каталозі на сторінці категорії під кожним товаром є опис цього товару:

І той же текст на сторінці з товаром:

Щоб уникнути дубля, не показуйте повну інформацію про товари на сторінці категорії (каталогу). Або ж за допомогою неповторяющееся опис.

2. Дублі на сторінках фільтрів, угруповань, пошуку і сторінках пагінацію, де є схоже вміст і змінюється тільки порядок розміщення. При цьому текст опису і заголовки не змінюються.

3. Дублі на сторінках для друку або для скачування, дані яких повністю відповідають основним сторінкам. наприклад:
http://site.net/novosti/novost1
http://site.net/novosti/novost1/print

Часткові дублі важче виявити. Але наслідки від них проявляються систематично і негативно відбиваються на ранжируванні сайту

До чого призводять дублі сторінок на сайті

Дублі можуть з'явитися незалежно від віку і кількості сторінок на сайті. Відвідувачу вони не завадять отримати потрібну інформацію. Зовсім інша ситуація з роботами пошукових систем. Оскільки URL різні, пошукові системи сприймають такі сторінки як різні. Наслідком великої кількості дублюючого контенту стає:

Проблеми з індексацією. При генеруванні дублюючих сторінок збільшується загальний розмір сайту. Боти, індексуючи «зайві» сторінки, неефективно витрачають краулінговий бюджет власника веб-ресурсу. «Потрібні» сторінки можуть зовсім не потрапити в індекс. Нагадаю, що краулінговий бюджет це кількість сторінок, яке бот може просканувати за один візит на сайт.
Зміни релевантної сторінки у видачі. Алгоритм пошукової системи може вирішити, що дубль більше підходить запитом. Тому в результатах видачі він покаже не ту сторінку, просування якої планувалося. Інший підсумок: через конкуренцію між дубль-сторінками, жодна з них не потрапить в видачу.
Втрата посилального ваги сторінок, які просуваються. Відвідувачі будуть посилатися на дублі, а не на оригінали сторінок. Результат втрата природної посилальної маси.

Каталог засобів для пошуку дубльованих сторінок

Отже, ми вже з'ясували, що таке дублі, якими вони бувають і до чого призводять. А тепер перейдемо до того, як їх виявити. Ось кілька ефективних способів:

Пошук дублів за допомогою спеціальних програм

Netpeak Spider . За допомогою сканування можна виявити сторінки з дублює зміст: повні дублі сторінок, дублі сторінок у вмісті блоку <body>, що повторюються теги «Title» і метатеги «Description».

Використання пошукових операторів

Для пошуку дублів можна проаналізувати сторінки, які вже проіндексовані, використовуючи пошуковий оператор «site:". Для цього в пошуковий рядок, наприклад Google, вводимо запит «site: examplesite.net». Він покаже сторінки сайту в загальному індексі. Так ми побачимо кількість сторінок у видачі, якщо воно сильно відрізняється від кількості знайдених спайдером сторінок або сторінок в XML-карті.

Переглянувши видачу, ви виявите, що повторюються сторінки, а також «сміттєві» сторінки, які потрібно видалити з індексу.

Також можна скористатися пошуком для аналізу видачі по тексту, який міститься зі сторінок, які, на вашу думку, можуть мати дублі. Для цього беремо в лапки частину тексту, після нього ставимо пробіл, оператор «site:" і вводимо в рядок пошуку. Необхідно вказати ваш сайт, щоб знайти сторінки, на яких присутня саме цей текст. наприклад:

Якщо в результатах пошуку одна сторінка, значить у Сторінка наразі не має дублів. Якщо ж у видачі кілька сторінок, необхідно проаналізувати їх і визначити причини дублювання тексту. Можливо, це і є дублі, від яких необхідно позбутися.

Аналогічним чином, використовуючи оператор «intitle:», аналізуємо вміст «Title» на сторінках у видачі. Дублювання «Title» буває ознакою дублюючих сторінок. Щоб перевірити, використовуємо пошуковий оператор «site:". При цьому вводимо запит виду:

site: examplesite.net intitle: повний або частковий текст тега Title.

Ось як це виглядає:

Використовуючи оператори «site» і «inurl», можна визначити дублі сторінок, які виникли на сторінках угруповань (sort) або на сторінках фільтрів і пошуку (filter, search).

Наприклад, для пошуку сторінок угруповань в пошуковому рядку потрібно прописати: site: examplesite.net inurl: sort.

Для пошуку сторінок фільтрів і пошуку: site: examplesite.net inurl: filter, search.

Запам'ятайте, пошукові оператори показують тільки ті дублі, які вже були проіндексовані. Тому не можна повністю покладатися на цей метод.

Використання Google Search Console

У цій панелі для вебмайстрів в розділі меню «Оптимізація HTML» будуть відображатися сторінки, на яких «Title» і «Description» повторюються.

Як позбутися від дублів

Ми вже розглянули, що таке дублі, види, наслідки дублів і як їх знайти. Тепер переходимо до найцікавішого як же зробити так, щоб вони перестали шкодити оптимізації. Використовуємо методи усунення дублів сторінок:

301 редирект

Вважається основним методом усунення повних дублів. 301 редирект виконує автоматичне переадресування з однієї сторінки сайту на іншу. За налаштованому редіректу боти бачачи, що з даного URL сторінка більше не доступна і перенесена на іншу адресу.

301 редирект дозволяє передати основній сторінці контрольний вагу з дублюючої сторінки.

Цей метод актуальний для усунення дублів, які з'являються з-за:

URL в різних регістрах;
ієрархії URL;
визначення основного дзеркала сайту;
проблем з використанням слешів в URL.

Наприклад, 301 редирект використовують для перенаправлення зі сторінок http://site.net/catalog///product;
http://site.net/catalog//////product;
http://site.net/product на сторінку http://site.net/catalog/product.

файл robots.txt

За допомогою методу ми рекомендуємо пошуковим роботам, які сторінки або файли не варто сканувати.

Для цього необхідно використовувати директиву «Disallow», яка забороняє пошуковим роботам заходити на непотрібні сторінки.
User-agent: *
Disallow: / stranica

Відзначимо, якщо сторінка зазначена в robots.txt з директивою Disallow, ця сторінка все одно може виявитися у видачі. Чому? Вона була проіндексована раніше, або ж на неї є внутрішні або зовнішні посилання. Інструкції robots.txt носять рекомендаційний характер для пошукових роботів. Вони не можуть гарантувати видалення дублів.

Атрибути rel = "next" і rel = "prev"

Google рекомендує використовувати цей метод, щоб дублі чи не з'явилися на сторінках пагінацію. При цьому Яндекс не буде враховувати ці атрибути.

За допомогою rel = "next" і rel = "prev" можна пов'язати між собою URL окремих сторінок. Пошуковики будуть розпізнавати контент цих сторінок, як один великий сувій, а не окремі URL.

Для цього на першій сторінці (http://site.net/catalog-page1) необхідно розмістити в розділі <head> (http://site.net/catalog-page1) тег, який вказує яка сторінка буде наступною:
<link rel = "next" href = "http://site.net/catalog-page2.html">

З огляду на, що це перша сторінка, додавати потрібно лише rel = "next". На всіх наступних сторінках додаємо і атрибут rel = "next", і rel = "prev", які будуть вказувати на попередній і наступний URL. Наприклад, на другій сторінці (http://site.net/catalog-page2) потрібно додати посилання:
<link rel = "prev" href = "http://site.net/catalog-page1">
<link rel = "next" href = "http://site.net/catalog-page3">

На завершальній сторінці (http://site.net/catalog-pageN), як і на першій, необхідно вказати тільки один атрибут. Важливо: в даному випадку він вказує на попередній URL:
<link rel = "prev" href = "http://site.net/catalog-pageN-1">

Відзначимо:

rel = "prev" і rel = "next" не є для Google директивами, це лише допоміжні атрибути;
вони не враховуються Яндексом;
важливо стежити за коректністю генерації тегів і дотримуватися чіткої послідовності між сторінками пагінацію, щоб не створювати нескінченні ланцюжки.

Метатег <meta name = "robots" content = "noindex, nofollow" і "meta name =" robots "content =" noindex, follow>

Метатег <meta name = "robots" content = "noindex, nofollow> вказує робот не індексувати документ і не переходити за посиланнями. На відміну від robots.txt, цей метатег пряма команда і вона не буде ігноруватися пошуковими роботами.

Метатег <meta name = "robots" content = "noindex, follow> вказує робот не індексувати документ, але при цьому переходити за посиланнями розміщеним в ньому.

Для використання методу необхідно розмістити на дублюючих сторінках в блоці <head> один з метатегов:
<meta name = "robots" content = "noindex, nofollow" /> або ж аналогічний: <meta name = "robots" content = "none" />; <meta name = "robots" content = "noindex, follow" />.

Атрибут rel = "canonical"

Використовуйте метод, коли видаляти сторінку можна і її потрібно залишити відкритою для перегляду.

Тег для усунення дублів на сторінках фільтрів і сортувань, сторінках з get-параметрами і utm-мітками. Застосовується для друку, при використанні однакового інформаційного змісту на різних мовних версіях і на різних доменах. Атрибут rel = "canonical" для різних доменів підтримується не всіма пошуковими системами. Для Google він буде зрозумілий, Яндекс його проігнорує.

Вказуючи канонічну посилання, ми вказуємо адресу сторінки, кращою для індексації. Наприклад, на сайті є категорія «Ноутбуки». У ній фільтри, які показують різні параметри вибору. А саме: бренд, колір, дозвіл екрана, матеріал корпусу і т.д. Якщо ці сторінки фільтрів не будуть просуватися, то для них канонічної вказуємо загальну сторінку категорії.

Як задати канонічну сторінку? У HTML-код поточної сторінки поміщаємо атрибут rel = "canonical" між тегами <head> ... </ head>. Наприклад, для сторінок:
http://site.net/index.php?example=10&product=25;
http://site.net/example?filtr1=%5b%25D0%,filtr2=%5b%25D0%259F%;
http://site.net/example/print.

Канонічної буде сторінка http://site.net/example.

В HTML коді це буде виглядати так: <link rel = "canonical" href = "http://site.net/example" />.

висновки

1. Дублі - окремі сторінки сайту, контент яких повністю або частково збігається.

2. Причини виникнення дублів на сайті: автоматична генерація, помилки, допущені веб-майстрами, зміна структури сайту.

3. До чого призводять дублі на сайті: індексація стає гірше; зміни релевантної сторінки в пошуковій видачі; втрата природної посилальної маси просуваються сторінками.

4. Методи пошуку дублів: використання програм-парсеров (Netpeak Spider); пошукового оператора site; панелі для вебмайстрів Google Webmasters Tools.

5. Інструменти усунення дублів: відповідні команди у файлі robots.txt; атрибути rel = "next" і rel = "prev"; тег meta name = "robots" content = "noindex, nofollow"; тег rel = "canonical"; 301 редирект.

Усунули дублюючий контент? Тепер необхідно перевірити сайт ще раз. Так ви побачите ефективність проведених дій, оцініть результативність обраного методу. Аналіз сайту на дублі рекомендуємо проводити регулярно. Тільки так можна вчасно визначити і усунути помилки.

Що таке часткові дублі?
Думаєте, нічого страшного?
Що таке повні дублі?
Php?
Php?
Net/?
Net/?
Net/?
Net/?
Net/register/?