PDA

Zobacz pełną wersję : Zablokowanie skryptu dla bootów indeksujących



sasiad
01-06-2016, 18:39
Witam,
Przeglądając statystyki obciążenia serwera widzę, że booty usilnie wywołują u mnie skrypt:

/component/content/article
Używam komponentu K2 do publikacji aktualności, i chciałem zablokować ten skrypt w pliku robots.txt :


User-agent: *
Disallow: /component/content/article

Nic to jednak nie daje, bo cały czas mi pokazuje po 30-50K wywołań, i generuje bardzo duże obciążenie serwera.

Możecie podpowiedzieć, jak zablokować skrypt, aby booty dały mu spokój ??

Pozdrawiam!

moje
02-06-2016, 00:47
Nie rób tego, bo stracisz indeksowanie. W internecie jest mnóstwo gotowych rozwiązań jak za pomocą pliku htaccess można zablokować złe boty.

sasiad
02-06-2016, 00:53
Złe boty mam zablokowane.
To Googleboot, Bingbot i inne mi tak "atakują ten jeden skrypt" :/

Edit:
Na złe boty mam wpis wg instrukcji Andrzeja Kasprzyk (wpis na FB):

SetEnvIfNoCase User-Agent "^Black Hole" bad_bot
SetEnvIfNoCase User-Agent "^Titan" bad_bot
SetEnvIfNoCase User-Agent "^WebStripper" bad_bot
SetEnvIfNoCase User-Agent "^NetMechanic" bad_bot
SetEnvIfNoCase User-Agent "^CherryPicker" bad_bot
SetEnvIfNoCase User-Agent "^EmailCollector" bad_bot
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot
SetEnvIfNoCase User-Agent "^WebBandit" bad_bot
SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "^ExtractorPro" bad_bot
SetEnvIfNoCase User-Agent "^CopyRightCheck" bad_bot
SetEnvIfNoCase User-Agent "^Crescent" bad_bot
SetEnvIfNoCase User-Agent "^Wget" bad_bot
SetEnvIfNoCase User-Agent "^SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "^ProWebWalker" bad_bot
SetEnvIfNoCase User-Agent "^CheeseBot" bad_bot
SetEnvIfNoCase User-Agent "^Teleport" bad_bot
SetEnvIfNoCase User-Agent "^TeleportPro" bad_bot
SetEnvIfNoCase User-Agent "^MIIxpc" bad_bot
SetEnvIfNoCase User-Agent "^Telesoft" bad_bot
SetEnvIfNoCase User-Agent "^Website Quester" bad_bot
SetEnvIfNoCase User-Agent "^WebZip" bad_bot
SetEnvIfNoCase User-Agent "^moget/2.1" bad_bot
SetEnvIfNoCase User-Agent "^WebZip/4.0" bad_bot
SetEnvIfNoCase User-Agent "^WebSauger" bad_bot
SetEnvIfNoCase User-Agent "^WebCopier" bad_bot
SetEnvIfNoCase User-Agent "^NetAnts" bad_bot
SetEnvIfNoCase User-Agent "^Mister PiX" bad_bot
SetEnvIfNoCase User-Agent "^WebAuto" bad_bot
SetEnvIfNoCase User-Agent "^TheNomad" bad_bot
SetEnvIfNoCase User-Agent "^WWW-Collector-E" bad_bot
SetEnvIfNoCase User-Agent "^RMA" bad_bot
SetEnvIfNoCase User-Agent "^libWeb/clsHTTP" bad_bot
SetEnvIfNoCase User-Agent "^asterias" bad_bot
SetEnvIfNoCase User-Agent "^httplib" bad_bot
SetEnvIfNoCase User-Agent "^turingos" bad_bot
SetEnvIfNoCase User-Agent "^spanner" bad_bot
SetEnvIfNoCase User-Agent "^InfoNaviRobot" bad_bot
SetEnvIfNoCase User-Agent "^Harvest/1.5" bad_bot
SetEnvIfNoCase User-Agent "^Bullseye/1.0" bad_bot
SetEnvIfNoCase User-Agent "^Mozilla/4.0 (compatible; BullsEye; Windows 95)" bad_bot
SetEnvIfNoCase User-Agent "^Crescent Internet ToolPak HTTP OLE Control v.1.0" bad_bot
SetEnvIfNoCase User-Agent "^CherryPickerSE/1.0" bad_bot
SetEnvIfNoCase User-Agent "^CherryPicker /1.0" bad_bot
SetEnvIfNoCase User-Agent "^WebBandit/3.50" bad_bot
SetEnvIfNoCase User-Agent "^NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "^Microsoft URL Control - 5.01.4511" bad_bot
SetEnvIfNoCase User-Agent "^DittoSpyder" bad_bot
SetEnvIfNoCase User-Agent "^Foobot" bad_bot
SetEnvIfNoCase User-Agent "^WebmasterWorldForumBot" bad_bot
SetEnvIfNoCase User-Agent "^SpankBot" bad_bot
SetEnvIfNoCase User-Agent "^BotALot" bad_bot
SetEnvIfNoCase User-Agent "^lwp-trivial/1.34" bad_bot
SetEnvIfNoCase User-Agent "^lwp-trivial" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot
SetEnvIfNoCase User-Agent "^BunnySlippers" bad_bot
SetEnvIfNoCase User-Agent "^Microsoft URL Control - 6.00.8169" bad_bot
SetEnvIfNoCase User-Agent "^URLy Warning" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot
SetEnvIfNoCase User-Agent "^LinkWalker" bad_bot
SetEnvIfNoCase User-Agent "^cosmos" bad_bot
SetEnvIfNoCase User-Agent "^moget" bad_bot
SetEnvIfNoCase User-Agent "^hloader" bad_bot
SetEnvIfNoCase User-Agent "^humanlinks" bad_bot
SetEnvIfNoCase User-Agent "^LinkextractorPro" bad_bot
SetEnvIfNoCase User-Agent "^Offline Explorer" bad_bot
SetEnvIfNoCase User-Agent "^Mata Hari" bad_bot
SetEnvIfNoCase User-Agent "^LexiBot" bad_bot
SetEnvIfNoCase User-Agent "^Web Image Collector" bad_bot
SetEnvIfNoCase User-Agent "^The Intraformant" bad_bot
SetEnvIfNoCase User-Agent "^True_Robot/1.0" bad_bot
SetEnvIfNoCase User-Agent "^True_Robot" bad_bot
SetEnvIfNoCase User-Agent "^BlowFish/1.0" bad_bot
SetEnvIfNoCase User-Agent "^JennyBot" bad_bot
SetEnvIfNoCase User-Agent "^MIIxpc/4.2" bad_bot
SetEnvIfNoCase User-Agent "^BuiltBotTough" bad_bot
SetEnvIfNoCase User-Agent "^ProPowerBot/2.14" bad_bot
SetEnvIfNoCase User-Agent "^BackDoorBot/1.0" bad_bot
SetEnvIfNoCase User-Agent "^toCrawl/UrlDispatcher" bad_bot
SetEnvIfNoCase User-Agent "^WebEnhancer" bad_bot
SetEnvIfNoCase User-Agent "^TightTwatBot" bad_bot
SetEnvIfNoCase User-Agent "^suzuran" bad_bot
SetEnvIfNoCase User-Agent "^VCI WebViewer VCI WebViewer Win32" bad_bot
SetEnvIfNoCase User-Agent "^VCI" bad_bot
SetEnvIfNoCase User-Agent "^Szukacz/1.4" bad_bot
SetEnvIfNoCase User-Agent "^QueryN Metasearch" bad_bot
SetEnvIfNoCase User-Agent "^Openfind data gathere" bad_bot
SetEnvIfNoCase User-Agent "^Openfind" bad_bot
SetEnvIfNoCase User-Agent "^Xenu's Link Sleuth 1.1c" bad_bot
SetEnvIfNoCase User-Agent "^Xenu's" bad_bot
SetEnvIfNoCase User-Agent "^Zeus" bad_bot
SetEnvIfNoCase User-Agent "^RepoMonkey Bait & Tackle/v1.01" bad_bot
SetEnvIfNoCase User-Agent "^RepoMonkey" bad_bot
SetEnvIfNoCase User-Agent "^Zeus 32297 Webster Pro V2.9 Win32" bad_bot
SetEnvIfNoCase User-Agent "^Webster Pro" bad_bot
SetEnvIfNoCase User-Agent "^EroCrawler" bad_bot
SetEnvIfNoCase User-Agent "^LinkScan/8.1a Unix" bad_bot
SetEnvIfNoCase User-Agent "^Keyword Density/0.9" bad_bot
SetEnvIfNoCase User-Agent "^Kenjin Spider" bad_bot
SetEnvIfNoCase User-Agent "^Cegbfeieh" bad_bot

order allow,deny
deny from env=bad_bot
allow from all

mjmartino
02-06-2016, 12:38
Podstawowe pytanie masz zrobioną mape strony i zgłoszoną do google ?
Jeśli nie to zrób to.

sasiad
02-06-2016, 12:53
Mapę mam i zgłaszałem ją do googla. Muszę ją chyba jednak zaktualizować. Dzieki za sugestię.

Edit:
W nocy przeszedłem na J! 3.5.1 i PHP 7 jeśli to coś zmienia, chociaż wątpię.

mjmartino
02-06-2016, 14:29
Aktualizacja J (chyba że byłby buq w routingu) jak i PHP wpływu niema.
Pytanie czy to na pewno jest G i B
Bo być może ktoś się podszywa pod te boty. trzeba by sprawdzić adresy IP i do kogo należą.

sasiad
02-06-2016, 14:49
Wczoraj obciążenie spadło do 13% (dostępne mam 15% CPU).
Miałem dni po 30-45% :/
Zobaczę co będzie jutro. Może sytuacja sama się wyklaruje.
Dziś i jutro posprawdzam też adresy IP które generują mi największą liczbę zapytań / obciążenie.
Dzięki!

sasiad
07-06-2016, 16:54
Dziś obciążenie średnie wynosi 5,1% (średnie przez długo było prawie 22% wcześniej), i cały czas ma tendencję spadkową.
Nic nie robiłem, że zobaczyć jak środowisko zareaguje, i się udało.
(aktualizowałem też framework templatki).
W statystykach widzę:
Bingboot: Wywołań 2654
Google: 419 więc duuuużo mniej

Zapytań do skryptu też mniej, bo "jedyne": 10144

Nie wiem jeszcze dlaczego booty dobijają mi się do wyrzuconego artykułu (Wywołań 10130), (/component/content/article?id=26&Itemid=185 )
Używam SEF Joomlowego i adresy są ogólnie proste, a ten jeden walczy ...
Chyba po prostu to zignoruję na razie.

mjmartino
08-06-2016, 10:29
A masz ustawione 404 przy błędnym wywołaniu ?

sasiad
08-06-2016, 10:37
Mam własną stronę 404, ale nie jest ona w tym przypadku wyświetlana (nie wiem dlaczego). Zamiast tego w przeglądarce pokazuje się

Nieprawidłowe przekierowanie i strona się nie wczytuje :(

moje
08-06-2016, 12:28
W dodatkach masz coś takiego jak przekierowanie. Ten dodatek przekierowuje z starych adresów na nowe. Próbowałeś go włączyć?

sasiad
08-06-2016, 12:44
Tak, ten dodatek jest włączony :/