К постам Опубликовано: 2016-12-23

Проблеми з індексацією: основні види зайвих сторінок в індексі, причини та шляхи вирішення

Всім привіт! Давно не писав в блог, причиною тому є завершальний етап розробки сайту студії. Зовсім скоро він буде дороблений і я його всім покажу ;) Але повернемося до теми нашої розмови, а він дуже важливий. Сьогодні ми поговоримо про сміттєвих сторінках в індексі. Сміття сильно перешкоджає активному зростанню позицій і відвідуваності сайту, що особливо актуально для старих сайтів, які давно просуваються. Відразу скажу, що в таких випадках чищення сміття та доведення індексації до ідеалу саме по собі дозволяє збільшити відвідуваність. Іноді на 20%, інколи у декілька разів, але в будь-якому випадку результат завжди дуже і дуже значний. Ось вам живий приклад.

Ще один цікавий випадок — тисячі сміттєвих сторінок після XSS атак, з якими стикаються багато і навіть один з моїх сайтів нещодавно потрапив під атаку. Особливо примітно тут, що навіть після детальної чищення Яндекс може тримати такі сторінки в індексі місяцями, а Гугл роками і це стає серйозною проблемою при просуванні.

Сьогодні ми детальніше розберемо причини виникнення сміття та дисбалансу у індексації, а так само поговоримо про шляхи вирішення цих проблем!

 

Чим загрожують проблеми з індексацією сайту

Найбільш схильні до появи зайвих сторінок в індексі саме інтернет магазини і часто число непотрібних сторінок значно перевищує кількість унікальних і корисних, через що сайт в очах пошукової системи є відвертою смітником і ні про яке зростання відвідуваності тут і говорити не доводиться і не важливо, які якісні посилання ви купуєте, який додатковий маркетинг проводите — сайт не буде зростати по сео, поки ви не наведете порядок.

Так само варто зауважити ще один найважливіший аспект — плавність індексації, коли кількість сторінок в індексі Яндекс і Гугл мають близькі значення (варто відзначити той факт, що цей параметр є дуже важливим при виборі донора для розміщення зовнішніх посилань). Найбільш часта картина, коли в Яндекс все чудово, а ось Гугл наївся сміття до відвалу і причина не зрозуміла, адже всі начебто закрито в роботс. Але проблема тут саме в самому роботс для Гугла. Дане питання я піднімав статті.

На даному етапі важливо зрозуміти — якщо у сайту є проблеми з індексацією — його просування вкрай утруднене і вимагає підвищених бюджетів!

Знаходимо зайві сторінки в індексі

Насамперед необхідно визначити, скільки ж у сайту реально існує сторінок. Для цього необхідно використовувати вивантаження сайту за допомогою Xenu.

Після того, як ми приблизно уявляємо реальне число сторінок сайту — необхідно звернутися до пошукової видачі Яндекс і Гугл, щоб побачити кількість сторінок в індексі (ВАЖЛИВО: не варто дивитися індексацію в Яндекс Вебмастер — він завжди пише не актуальне значення). Тільки безпосередні запити до пошукової системи!

Для Яндекс:

url:www.домен/* | url:домен/* | url:домен | url:www.домен

Для Гугл:

site:домен

Тепер ми знаємо 3 основних показника:

  • Реальне число сторінок сайту
  • Кількість сторінок сайту в Яндексі Гугл
  • Кількість сторінок сайту в індексі Яндекс

На базі цього можна побачити наступні сюжети:

 

  • Реальне число сторінок більше, ніж кількість сторінок в індексі Яндекс і Google

Сама невинна ситуація, на основі якої можна зробити 2 висновки — сайт ще не був повністю проіндексовані (швидше за все саме так і сталося). Або ж індексацію сайту сильно ускладнює неправильна структура, що все-таки малоймовірно. Дана проблема легко лікується додаванням сайтмап html.

Можливі окремі випадки у вигляді бана пошуковими системами, або помилки в переадресації, що буде обумовлено стабільним випаданням сторінок з індексу і далі. Такі випадки дуже рідкісні.

  • Реальне число сторінок приблизно дорівнює кількості сторінок у Яндекс, але в Гугл сторінок набагато більше

Класична ситуація, коли вебмастер все зробив начебто і правильно, але не врахував, що Гугл не дивиться на robots. Всі директиви, прописані в роботс необхідно замінити тегами, які забороняють індексацію начебто meta robots, canonical і т. д.

Приватний випадок — наявність на хостингу групи сторінок на які не веде жодна внутрішня посилання з сайту. Тобто не взагалі малося на увазі, що ці сторінки повинні індексуватися, але google вміє і таке ;)

  • Реальне число сторінок менше, ніж в індексі обох пошуковиків. Число сторінок у Яндекс приблизно дорівнює числу сторінок в Google

Дуже проста ситуація, яка, як правило, актуальна саме для інтернет магазинів і обумовлена відсутністю canonical. В індекс потрапляють сторінки сортувань, пагинаций, друку.

  • Реальне число сторінок менше, ніж в індексі обох пошуковиків. У Google сторінок більше, ніж в Яндекс

Цілком стандартна ситуація, яка як правило обумовлена неправильним закриттям технічних сторінок сортувань плюс все з минулого пункту.

  • Реальне число сторінок менше, ніж в індексі обох пошуковиків. В Яндекс сторінок більше, ніж в Гугл

Складна ситуація — необхідно детально вивчати проблему!

 

На даному етапі картина починає прояснюватися, і ми вже можемо робити попередні висновки і прогнозувати необхідні дії. Головним завданням наступного етапу стає безпосереднє виявлення основних джерел сміття.

 

Копаємо глибше

найголовніше тепер зрозуміти, звідки саме взялися зайві сторінки. А саме знайти причину насичення індексу сміттям. Для цього використовуємо команди з голови Знаходимо сміття, тільки замість домен вбиваємо кожен раз адреси категорій сайту. Результатом цієї тривалої і копіткої роботи стане виявлення саме тих розділів, які мають найбільше зайвих сторінок в індексі.

Так само не зайвим буде вручну погортати видачу пошукової системи — іноді саме так найпростіше виявити сміття.

Особливу складність представляють наслідки XSS атак, т. к. сміття, що виник таким чином часто не має внутрішніх посилань, через що неможливо виявлення таких сторінок шляхом вивантаження Xenu. В даному випадку нам може допомогти розділ Індексація в панелі Вебмастера Яндекс і Гугл, де пошукова система будує структуру взаємозв'язків всередині сайту.

Резюмуючи варто виділити 3 основних інструменту:

  1. ручна перевірка видачі
  2. перевірка індексації за категоріями сайту
  3. розділ Індексація в панелі вебмастера Яндекс і Гугл

Далі залишається тільки підчистити сміття і чекати ;)

Вибираємо мітлу

найскладніше позаду. Тепер ми знаємо звідки взявся сміття і чим він викликаний. Наступним кроком необхідно вибрати правильний інструмент очищення. Безперечно, найкращим інструментом є фізична відключення сміттєвих сторінок, але це не завжди можливо, адже часто такі сторінки дійсно потрібні, наприклад пагинация або фільтри в інтернет магазину. Якщо сторінки неможливо фізично прибрати — необхідно дати роботу заборона на індексацію таких станиць, але тут і мови не може бути про robots txt — файл вкрай малоефективним. Найсильніша директива, якій однаково підвладні і Яндекс і Google це тег meta robots, який прописується в контейнері < HEAD. Всередині цього тега ми можемо повністю заборонити індексацію сміттєвих сторінок.

У деяких випадках варто використовувати canonical, який актуальний у всіх випадках пагинаций і сортувань. Суть каноникла — ми вказуємо материнську сторінку для всіх дочірніх, у випадку з пагінація це перша сторінка розділу. У підсумку робот буде чітко розуміти що представляють з себе такі сторінки і усуне їх з індексу.

Прискорюємо переіндексацію

Причини виникнення сміття ми прибрали, але пошукові системи про це поки не знають. І без нашої допомоги можуть дізнатися лише через кілька місяців, а у випадку з google дана процедура може розтягнутися на пів року і більше. Але ми можемо допомогти пошуковій системі, використавши наступні поради:

  1. детально налаштувати сторінку 404 помилки. Якщо сміття був видалений фізично і старих сторінок більше не існує — при зверненні до них повинна віддаватися коректна сторінка 404 помилки
  2. додати сайтмап html і xml. Обидва сайтмапа повинні бути автоматичними
  3. поставити на категорії сайту кілька трастових посилань, які буде приносити трафік — таким чином робот буде заходити частіше і побачить, що структура сайту була змінена
  4. можна купити на закриті сторінки посилань в SAPE ;) Ну це швидше жарт
  5. тимчасова підклеювання домену

 

Про подклейке ми поговоримо трохи докладніше:

Підклеювання домену, як серйозний аргумент

Навіть правильно налаштовані заборони на індексацію зовсім не означають те, що пошукачі швидко приведуть індексацію вашого сайту в порядок. Іноді цей процес може займати довгі місяці. А якщо у вашого сайту реальних сторінок не більше 100, а в індексі тисячі сторінок, як наприклад після XSS атаки — немає сенсу втрачати потенційний трафік і чекати кілька місяців. Набагато ефективніше буде використовувати методику підклеювання домену.

Для цього необхідно придбати новий домен і перенести на нього сайт, а минулий домен посторінково підклеїти. При такому підході протягом місяця домени будуть склеєні, а якщо головним дзеркалом вказаний новий домен — старий повністю випаде з індексу. Після цього можна провести зворотну процедуру і насолоджуватися чистим індексом без сміття

Висновок

У висновку хотілося б сказати, що чистий , рівномірний індекс — запорука успішного сео просування. Правильна індексація показує пошуковим системам, що сайт як мінімум якісний. І пам'ятайте недоиндексация сайту це ще не страшно, а от переіндексація... Переіндексація це дуже серйозна проблема.