К постам Опубликовано: 2016-12-23

Дослідження

Сьогодні мова піде про дослідження модуля Яндекс.Вебмастера «Оригінальні тексти» тривалістю 26 місяців.

Як Яндекс пояснює роботу сервісу?

Якщо ви публікуєте на своєму сайті оригінальні тексти, а їх передруковують інші інтернет-ресурси, попередьте Яндекс про швидкий вихід тексту. Ми будемо знати, що оригінальний текст вперше з'явився саме на вашому сайті, і спробуємо використовувати це в налаштуванні пошукових алгоритмів. Зверніть увагу, що ми не гарантуємо облік вашої заявки в роботі пошукових алгоритмів.

Почнемо з історії

Альфа-тестування сервісу Яндекс почав у 2011 році, 15 серпня. З обмеженням для сайтів з тіц > 0.

Тестування закінчилося в 2013 році, 23 жовтня. Оригінальні тексти стали доступні всім. Без обмежень. З'явилося API.

Невеликий відступ

Багато веб-майстри не вірили в роботу «Оригінальних текстів». Є багато тем на форумах, де донині люди обговорюють цю тему. Навіть було кілька експериментів в блогах з метою перевірки роботи цього чорного ящика. Один з найбільш пам'ятних зробив Ігор Бакалов.

Я дивився на ці експерименти зі сторони і розумів, що даних занадто мало, щоб робити якісь висновки, тому не сприймав результати всерйоз. Та й приводів не вірити Яндексу у мене не було, хоч і перевірити його було не можна.

Саме тому на початку 2014 року ми на Миратекст реалізували можливість автоматично відправляти готові тексти в Яндекс.Вебмастер. Безкоштовно, адже Яндекс теж нічого за це не просить. Замовнику треба було тільки зв'язати аккаунт на Миратекст з аккаунтом в Яндексі.

А працюють?

Процес налагоджений, тексти писалися, відправлялися в Яндекс. Іншими словами, все було добре. Нещодавно я згадав про це і подумав: а чому б не проаналізувати всі додані тексти і не дізнатися, а чи працюють ці «Оригінальні тексти»?

Деякі відправляють свої тексти в Яндекс, але за 2 роки і 2 місяці накопичилося:
— 2014: 7014 статей
— 2015: 6924 статей
— 2016: 778 статей

Майже 15 тисяч статей які були відправлені в Яндекс. Я б повірив такого експерименту, якби прочитав про нього в Рунеті. Вирішено, що робимо.

Перший етап — перевірка унікальності

Першим ділом треба перевірити всі тексти на унікальність. Ясна річ, що спочатку вони були унікальними, але через деякий час їх могли вкрасти, що нам і потрібно.

У цьому мені допоміг Михайло Романів з content-watch.ru. Після перевірки повернулося:
— 2014: 408 статей
— 2015: 480 статей
— 2016: 46 статей

Перевіряючи унікальність статей, ігнорували основний домен, на якому повинна бути розміщена стаття, щоб знайти реальні копії статей.

У підсумку 934 статті (6%) з 15 тисяч статей виявилися неуникальными. Я очікував більшої кількості, але і цей результат непоганий.

Другий етап — перевірка позицій

В теорії: Якщо «Оригінальні тексти» працюють, то позиції ОС повинні бути вище ніж у СК. В ідеалі всі позиції ОС повинні бути першими.

Ми з самого початку знали, на якому сайті був розміщений текст, так як відправка готових статей в Яндекс.Вебмастер йде за API до прив'язаного сайту. Отже, основний сайт (надалі ОС) нам уже відомий, а ось сайт-копіпастер (надалі СК) ми дізналися після перевірки унікальності.

Нам треба перевірити, хто у видачі вище – ОС або СК. Щоб це перевірити, розбиваємо неунікальні статті (934 штуки) на запити по 8 слів і за всім цим запитам перевіряємо позиції першого і другого сайту.

Чому саме по 8 слів? Тому що такого запиту має бути достатньо, щоб у видачі виявився потрібний сайт. А також, чим менше слів у запиті, тим більше запитів на одну статтю, а це більш точні дані.

Для наочності поясню

Є сайти:
— site.ru – наш основний сайт
— site2.ru – сайт-копіпастер

Після розбивки тексту на запити вийде приблизно 38 запитів для тексту обсягом 2000 символів (приблизно 300 слів). А значить, треба дізнатися 76 позицій: 38 для ОС і 38 СК. І так по кожній статті.

Отже, розбиваємо всі статті на запити. Отримуємо:
— 2014: 12555 запитів
— 2015: 11984 запиту
— 2016: 1026 запитів

У сумі: 25565 запитів. Так як ми будемо перевіряти позиції двох сайтів, то загальна кількість запитів буде одно 51130. Круто, 50 тисяч!

Перед тим, як приступити до перевірки розумію, що через роки деякі сайти можуть взагалі не працювати. Перевіряємо і в підсумку відсіваємо частина запитів. Залишаються:
— 2014: 9289 запитів
— 2015: 10974 запиту
— 2016: 1026 запиту

У сумі: 21289 запитів. Для двох сайтів: 42578 запитів. А для двох пошукових систем: 85156 запитів.

З позиціями допомогла команда PR-CY.ru line.pr-cy.ru. Загнали всі дані, запустили, чекаємо, потираємо руки...

Третій етап — аналіз

Ось тут і почалося найцікавіше. Спочатку я думав, що картина буде ясна. Але все виявилося складніше.

На жаль, багато замовників неправильно використовували інструмент. Вони відправляли готові статті в Яндекс, але статті не розміщували на своєму сайті, а на інших (яскравий приклад – статті для Міралінкс). Саме тому найчастіше позиції в ОС були відсутні, тому що статті, яку ми шукали, там немає.

Якщо ви робите також – зупиніться! По алгоритму Яндекса, текст, відправлений в "Оригінальні тексти" повинен бути розміщений саме на тому сайті, куди і був відправлений текст. Інакше який сенс відправляти тексти в Яндекс?

Довелося додатково відфільтрувати результати. Залишати тільки ті статті, які дійсно є на сайті.

В результаті залишилося тільки 7029 позицій (33%). Якщо вважати в середньому, то це близько 150 статей. Взагалі мізер, але що робити.

Спочатку цікаві спостереження

Кількість позицій у топ 100
— Яндекс ОС: 5920
— Яндекс СК: 3507
— Google ОС: 7029
— Google СК: 2126

Количство позицій в ТОП100

Видно, що Google краще знаходить джерело і набагато рідше показує у видачі копіпастера. Хоча у Google немає інструменту "Оригінальні тексти". А також зверну увагу на те, що Google частіше викидає сайт СК за топ 100 (що на мій погляд вірно), а Яндекс все одно знаходить їй місце у видачі.

Середня позиція
— Яндекс ОС: 3,91
— Яндекс СК: 6,67
— Google ОС: 1,53
— Google СК: 3,21

Середні позиції в пошукових системах

Видно, що в середньому обидва пошуковика віддають перевагу того сайту, хто є власником контенту, але по позиціях Google знову випереджає Яндекс.

Якщо дивитися на позиції, то особливо нічого не зрозуміло, але для чистоти експерименту я їх опублікую. Позицій багато, тому вони виглядають не дуже зручно.

Позиції в Яндексі
Позиції в Google

Цікаво дізнатися найголовніше: хто ж вище за позиціями, основний сайт або сайт-копіпастер? Малюємо діаграми на основі даних 7029 запитів:

Хто вище?

Висновки

Перш ніж перейти до висновку, хочу окремо подякувати Михайла Романова з content-watch.ru і команду PR-CY.ru line.pr-cy.ru. Без вашої допомоги я не зміг би отримати ці дані. Спасибі!

Метою експерименту було перевірити хто буде у видачі вище, сайт, який доданий в “Оригінальні тексти" або той сайт, який вкрав чужий контент. Порівняння з Google відбувається лише тому, що було цікаво, які результати у головного конкурента Яндекса.

Висновок простий і короткий – "Оригінальні тексти" на Яндексі працюють.
Сайт, за яким закріплено авторство контенту, що знаходиться у видачі вище, ніж сайт, який вкрав цей контент.

Мої міркування такі.
Яндекс створив цей інструмент бо, що є проблема зі швидкістю індексування нових сторінок. І цей інструмент працює. Допомагає Яндексу дізнатися, хто першоджерело. А Google сам по собі дуже швидкий, тому і без додаткових інструментів може визначити, хто першоджерело. Залишається питання, як буде розвиватися ситуація, якщо: контент з сайту був вкрадений за умови, що ОС не відправляв цей текст в "Оригінальні тексти", а також сторінка з новим текстом швидше проиндексировалась саме у СК?

В теорії СК повинен бути вище. Можливо потім довести пошукового алгоритму, що саме ви є автором контенту? І як це зробити?