Google Duplicate Proxy Exploit

Как да защитите вашия сайт от експлойта на Google за прокси дубликат

В момента има действащ начин да изхвърлите сайт от страниците с резултати от търсене в Google. Той е прост и ефективен. Тази информация е вече в публичното пространство и колкото повече хора разберат за нея, толкова по-вероятно е Google да направи нещо по въпроса. Тази статия ще ви каже как работи методът, как да изхвърлите сайт от ранг-страниците на търсещите роботи, и най-важното – как да защитите своя сайт от опасността това да го сполети.

За да разберете този експлойт, първо трябва да разберете филтъра на Google за дублиращо се съдържание. Най-просто описан, той представлява следното:

Google не иска да търсите „blue widget“ и да имате като първи 10 резултата от търсенето копия на една и съща статия за това колко велики са blue widgets. Те искат да получите едно копие на статията за великия blue widget, и 9 други различни резултати от търсенето, тъй като се предполага, че вече сте прочели първата статия и следващите резултати са точно каквото искате.

За да се справят с това, всеки път, когато Google-паяците индексира страница, проверяват дали вече имат страницата, която в основата си е същата, повтаряща се страница, ако предпочитате. Как точно Google прави това, никой не знае с подробности, но трябва да е от няколко/всичко от : дължина на текста на страницата, заглавие на страницата, хедъри, сбор от ключовите думи, проверка за точни копия на изречения и т.н. Като резултат от този филтър за дублиращо се съдържание, цялата индустрия се е заела с търсене на начини за заобикаляне на филтъра. Просто напишете в някоя търсачка „spin article„.

Getting back to the story here, Google indexes a page and lets say it fails it’s duplicate content check, what does Google do? These days, it dumps that duplicate page in Google’s Supplemental Index. What, you didn’t know that Google has 2 indexes? Well they do: the main one, and a supplemental one. Two things are important here: Google will always return results from their Main index if they can; and they will only go to the Supplemental index if they don’t get enough joy from their main index. What this means is that if your page is in the supplemental index, it’s almost certain that you will never show up in the Search Engine Ranking Pages, unless there is next to no competition for the phrase that was searched for.

Всичко това ми изглежда напълно приемливо, така че какъв е проблемът? Ами, има още една малка стъпка, която още не съм споменала. Какво става, ако някой копира вашата, да кажем заглавна страница, от бизнес-сайта ви, и като резултат Google индексира това копие, за което правилно определя, че е дубликат? И така, Google знае за 2 страници, че са дубликати, и трябва да реши коя да изхвърли на второстепенна позиция, и коя да държи начело. Това е очевидно, нали така? Но как Google знае кое е оригиналът и кое – копието? Не знае. Разбира се, имат някои хитри алгоритми, но дори те да са 99% точни, това оставя редица проблеми за спадащите към този 1%, в който се касае за грешка.

И ето същността на експлойта. Ако някой копира титулярната страница на вашия сайт, например, и успее да убеди Google, че тяхната страница е оригиналната, тогава вашата ще бъде изхвърлена, така че никога отново да не види дневна светлина на първите страници на търсачката. В случай, че не съм била достатъчно ясно, това е лошо! Но, чакайте, става по-лошо:

Добре ще е да споменем, че ако човек физически копира вашата страница и я хостне, може да го накарате да го махне чрез адвокати по авторското право, като се въздържите от изпращане на писма до интернет-доставчици и подобни, и изпратите бърза заявка за ново включване в Google.

Но напоследък има нова заплаха, която е много по-трудно да бъде спряна: използването на публично достъпни прокси-уебсайтове. (Ако не знаете какво е прокси, най-общо това е начин за ускоряване на сърфирането в интернет чрез кеширане на съдържание по-близо до физическото ви местонахождение. По принцип, те са хубаво нещо.)

Има много такива уеб-проксита, така че няма да изброявам тук, но ще опиша процеса: те изпращат паяци (Подобни на тези на Google), които да минат през страницата ви, извличат съдържанието, а след това хостват копие на вашия уебсайт на техен прокси-сайт, така че когато техните потребители изпратят заявка към вашия сайт, могат да достигнат тяхното копие по-бързо, отколкото ако трябва да го получат от вашия сървър. Големият проблем е, че Google понякога може да реши, че прокси-копието на вашия сайт е оригиналът, а вашият – не.

По-лошото е, че има доказателства, че хора използват злонамерено прокси-сървърите, за да кешират копия на страници, а след това да използват нормални техники за SEO (оптимизация за търсачки), за да направят тези прокси-страници да излизат на челни места в резултатите от търсенето, увеличавайки опасността вашата легитимна страница да бъде тази, която да бъде изхвърлена от филтрите за дублирано съдържание на търсачките.

И дори още по-лошо, някои от прокси-паяците активно заблуждават за произхода си, така че да не осъзнавате, че това е паяк от прокси, претендиращ да е такъв от Google или пък Yahoo, например. Ето защо големите търсачки активно публикуват наръчници за това как да разпознаем техните собствени паяци.

Големият въпрос е, как да се защитите срещу това? Има няколко възможни решения, зависещи от хостинг-технологията, която използвате и от техническата компетентност:

Опция 1 – Ако използвате Apache или PHP на вашия сървър, можете да настроите уеб-хоста да проверява за паяци от търсачки, претендиращи да са от големите търсачки, и използвайки php в комбинация с .htaccess файл, можете да блокирате проксита от други източници. Този метод, обаче, работи само за проксита, които играят по правилата и се идентифицират коректно.

Опция 2 – Ако използвате Windows или IIS на вашия сървър, или сте се спряли на решение със споделен хостинг, което не ви дава възможността да направите нищо умно, ще бъде ужасно трудно и ще трябва да се консултирате с професионалист за това как да се защитите от този тип атака.

Опция 3 – Това е най-доброто възможно решение в момента, и е възможно, ако имате сайт, базиран на PHP или ASP: Сложете метатаговете за търсещите роботи на всички страници на noindex и nofollow, след това сложете PHP- или ASP-скрипт на всяка страница, който да проверява за валидни паяци от големите търсачки, и ако са такива, да променя метатаговете на index и follow. Важната особеност тук е, че е по-лесно да разпознаете истински паяк, и да отблъснете паяк, който се опитва да ви измами, защото търсещите роботи на големите търсачки публикуват процесите и процедурите за това, в това число IP-заявки и подобни.

И така, бъдете нащрек, бъдете информирани, и останете защитени. И ако видите, че внезапно сте били изхвърлени от заглавните страници на търсещите роботи, сега вече ще знаете защо, как и какво да направите по въпроса.

Относно автора
Софи Уайт е консултант по интернет-маркетинг и промотиране на уеб-сайтове към Intrinsic Marketing и SEO, както и Pay-Per-Click (Заплащане за клик) фирма , посветена на подобряване възвръщаемостта на уебсайт-инвестициите
Оригинал : How to Defend your Website from the Google Duplicate Proxy Exploit

Няма коментари

Comments are closed.


«
»