К постам Опубликовано: 2016-11-16

Суть алгоритму Google Penguin 4

Інтернет містить величезну кількість інформації, яка постійно змінюється. Пошукові системи оцінюють цю інформацію так, щоб забезпечити високу якість результатів пошуку. Штучне зміна рангу (оцінки) веб-сторінки спамерами включає в себе набір методів, за допомогою яких вони намагаються обдурити пошукову систему для того, щоб їхня інформація ранжувалась на або поблизу топ списку результатів пошуку (позиції сайту). Існують різні методи спаму, такі як перебір з ключовиками, невидимий або крихітний текст, редиректи, спам в тегах <meta>, в анкорах.

Штучне збільшення спамерами рейтингу деяких документів (низької якості або нерелевантних) погіршує якість результатів пошуку.

Сенс алгоритму Google Penguin 4.0 – боротьба зі спамом у всіх його проявах.

Принципи його роботи тримаються в строгому секреті. На основі заяв офіційних представників Google і опублікованих патентів спробуємо припустити, як він працює. Можливо, ви дізнаєтеся щось нове. Алгоритм Google Пінгвін оновлювався частіше, ніж ви думаєте. Просто не всі оновлення афішувалися. Мета полягає в тому , щоб створити постійно оновлюється алгоритм Пінгвін.

Gary Illyes, Google Webmaster Trends Analysts. Ось частина інтерв'ю Gary Illyes на конференції SMX Advanced 2016.

" Денні Саллливан: Останнє оновлення Пінгвін було в грудні 2014 р. Коли буде наступне оновлення? Гері: Я не буду говорити дату , тому що я був неправий занадто багато разів . Мені сказали , що це погано для бізнесу. Денні Саллливан: В цьому році? Гері: Я не буду більше називати якісь терміни. Схоже, що Гері заборонили називати які-небудь дати оновлення алгоритму Penguin.

Алгоритм оновлювався частіше, ніж один раз на місяць (швидше, ніж «Панда») і, ймовірно, буде оновлюватися щодня. Ознаки оновлення алгоритму Google Penguin 4 з'явилися 2 вересня 2016 року (пікові стрибки на 'Google Grump' Rating і на Algoroo). Офіційно факт оновлення алгоритму до четвертої версії був підтверджений 23 вересня 2016 року. Google повідомив, що тепер алгоритм діє в режимі реального часу. Мої прогнози справдилися. Алгоритм самостійно відключає спамні посилання, дизактивує вплив на рейтинг спаму ключовими словами, спаму в мета-тегах і анкор.

Google вважає одним із пріоритетів машинне навчання. Досить імовірно, що алгоритм Google Penguin 4.0 – це система самонавчання, яка аналізує зміни в порозі і структурі спаму. Нові дані про спам порівнюються зі старими і формулюється відповідь пошукового алгоритму – уповільнення позитивного ефекту, від'ємний (пониження позицій і/або трафіку), позитивний (присвоєння більш високого рейтингу). Вам не здається, що алгоритм Пінгвін підступніший, ніж ви думаєте? Уявіть собі, що Google Penguin 4.0 спеціально провокує веб-майстри на певні дії з метою отримати додаткові підтвердження наявності спроби маніпулювання результатами пошукової видачі. Ross Koningstein запропонував спосіб визначення впливу спамерів на оцінку рейтингу веб-сторінки та ідентифікації спроб спаму, у тому числі розрахунку рейтингу смаммера. Дуже ймовірно, що саме патент US8244722 B1 «Ranking documents» в місці з іншими винаходами ліг в основу алгоритму Penguin. Системи і методи, згідно з принципами винаходу може надати функцію зміни рейтингу (наприклад, на основі часу) для визначення зміни рейтингу спамерів.Функція створює вводять в оману ознаки впливу на ранг у відповідь на спроби спаму. Запропоновані в патенті системи і методи також допомагають спостерігати за реакціями (діями) спамерів, викликаними функцією зміни рейтингу для визначення документів, якими активно маніпулюють. Це допомагає в ідентифікації зміни рангу спамерів. Ранг документа може змінитися з плином часу під впливом змін у змісті сторінки, кількості і якості вхідних і вихідних посилань. Ці зміни можуть бути результатом легітимних модифікацій або зміни рангу спамерами. Оцінка документа до змін називається «Старий Ранг», а після змін – «Цільової Ранг». Описана функція може генерувати «Ранг переходу», який являє собою різницю між старою і новою оцінкою. Ранг переходу може викликати протягом часу затримки відповіді (спеціальне уповільнення позитивної зміни позицій сайту), негативну відповідь (спеціально знижені позиції сайту), випадкова відповідь і/або несподіваний відповідь під час переходу від старого рангу в цільової ранг.

Пошукова система також може співвіднести динаміку рангу веб-сторінки з відповіддю функції ранжування переходу для визначення спроб маніпулювання спамерами рейтингом документа (web-сторінки). Наприклад, сильна кореляція між рангом документа і рангом, пов'язаним з відповіддю функції зміни рейтингу, з плином часу може свідчити про навмисне маніпуляції результатами пошуку. Ранг R не зміниться, якщо вхідні параметри не змінюються. Якщо вхідні параметри змінюються, наприклад, зміна кількості посилань, то ранг R буде змінюватися в дискретному кроці під час обчислення нового рангу R. Результати зміни вхідних параметрів не приводять до негайної зміни рейтингу. Замість цього, ранг, пов'язаний з документом, може змінюватися з плином часу в результаті зміни у вхідних параметрах. Після певного періоду часу ранг документа може перейти нове значення стійкого стану (target). Іншими словами, це може зайняти приблизно 70 днів щоб змінити ранг документа на основі інформації про його посиланнях до стабільного стану (target).

Ранг документа спочатку може зменшуватися у відповідь на позитивні зміни в інформації, заснованої на посиланнях. Після певного періоду часу ранг документа може піднятися до його нового значення – стійкого стану (target). Іншими словами, ранг документа може зменшуватися протягом приблизно 20 днів у зазначеному 70-денному періоді, перш ніж досягне нового стабільного стану. Також у цей період можливі спеціальні тимчасові затримки демонстрації позитивного ефекту. Google Penguin 4.0 – можливі приклади обробки даних Коли спамер намагається позитивно впливати на ранг документа, він може бути спантеличений значенням позиції, визначеного функцією зміни рейтингу. Наприклад, первинною реакцією на спроби спаму може бути зниження рейтингу замість очікуваного підвищення (позиції сайту і трафік падає).Несподівані результати обов'язково отримають відповідь від спамера, особливо якщо його клієнт засмучений результатами. Як бачимо патент багато в чому розрахований на панічну поведінку спамера. У відповідь на негативні результати своїх спроб спамер може видалити зміни і тим самим сприяє довгостроковому впливу на ранг документа (привласнення значення – нуль). Спрогнозувати кількість часу, щоб побачити позитивні (або очікувані) результати у відповідь на зміни спамера, неможливо.

У відповідь на затримки результату спамер може виконати додаткові зміни в спробі позитивно (або більш позитивно) вплинути на ранг документа. Наприклад, при затримці відповіді (неотримання потрібної рейтингу в очікувані терміни), спамер може додати інші способи спаму (наприклад, додавання додаткових ключових слів, крихітний текст, невидимий текст, посилання, та ін). У разі негативної відповіді спамер може видалити посилання на цей документ (або провести інші зміни) у спробі скасувати пониження рейтингу. Для виявлення ознак того, що ранг документа піддається маніпуляції, Google Penguin може в режимі реального часу спостерігати (аналізувати) поведінка спамера. Дані Penguin оновлюються в режимі реального часу, тому зміни будуть враховуватися набагато швидше (найчастіше відразу після завершення сканування та індексування сторінок). У будь-якому випадку ці подальші дії спаммера можуть допомогти у виявленні ознак штучного зміни рангу документа. Наприклад, якщо ранжування змінилося в протилежну сторону від початкових 10% змін, то це може відповідати реакції на первинно-инверсіонну функцію розрахунку рейтингу. Крім того, якщо ранг змінювався несподівано (крім зміни під час перехідного періоду), алгоритм може встановити додаткові спроби спаммера якимось чином компенсувати небажані зміни в ранзі документа і це буде ознакою того, що оцінка документа піддається модифікації спаммером.

Кореляція може використовуватися в якості потужного статистичного інструменту прогнозування. У випадку затримки відповіді (позитивний ранг) можна визначити зміни, внесені під час періоду затримки, які впливають на конкретні веб-сторінки. У разі негативної відповіді першого рангу кореляція може використовуватися для ідентифікації повернення змін. У будь-якому випадку подальші спроби маніпулювати рангом документа будуть виділені в кореляції з плином часу. Таким чином, кореляція з плином часу може використовуватися як автоматизований індикатор зміни оцінки (рангу, порогу) спаму. Зверніть увагу на те, що веб-сторінки автор винаходу пропонує кваліфікувати як спам-сторінки і підозрілі документи. Коли ознаки зміни рангу спаму існують, але їх, можливо, недостатньо для позитивного визначення зм іни рангу спаму, то «підозрілий» документ може бути підданий більш екстремальним варіаціям зміни рангу у відповідь на зміни в посилальної маси. В якості альтернативи, або додатково, визначення рангу документа може бути введений шум. Цей шум може викликати випадкові, змінні та/або небажані зміни в ранзі документа в спробі змусити спамера вжити заходів щодо виправлення становища. Це коригувальна дія може допомогти встановити піддавався рейтинг документа небажаного впливу з боку спамера. Якщо встановлено, що документ (розрахунок його рейтингу) піддався спробам маніпулювання, то така веб-сторінка, сайт, домен, та/або посилання можуть бути визначені як спам. Я думаю, що в описаних в патенті діях спаммера багато веб-майстри впізнали себе. Якщо позиції сайту змінюються нез'ясовно і не прогнозовано – не варто відразу панікувати. Саме такої реакції від вас чекають. Суть алгоритму Google Penguin в тому, що борючись з веб-спамом він, ймовірно, може провокувати веб-майстрів на додаткові спроби спаму. Висновки робіть самі, але враховуйте також те, що немає офіційного підтвердження того, що цей патент застосовується.