PDA

Zobacz pełną wersję : Roboty oblegają stronę



dkw
30-04-2012, 14:43
Od 5 dni mam non stop około 100-120 robotów indeksujących. To że zawyżają statystyki to nic ale martwi mnie po co tyle czasu indeksują. Zmiany w robots.txt nic nie dały jak również to http://www.cenobitz.com/portal/helpdesk-serwer/item/54-skuteczne-blokowanie-robotów-indeksujących-yandex-htaccess

Czy macie jakieś pomysły na pozbycie się ich?

moje
30-04-2012, 17:05
Dodaj odpowiednnie wpisy w htaccess. Nie pytaj jakie wpisy - wygoogluj je.

dkw
04-05-2012, 13:16
Nic nowego nie mogę znaleźć, to poniżej dodałem do htaccess ale to nic nie dało.

Macie coś sprawdzonego? dzisiaj było nawet 780 robotów :( :zly:



<Limit GET POST>
#The next line modified by DenyIP
order allow,deny
#The next line modified by DenyIP
#deny from all
allow from all
</Limit>
<Limit PUT DELETE>
order deny,allow
deny from all
</Limit>

<Files 403.shtml>
order allow,deny
allow from all
</Files>

SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot
SetEnvIfNoCase User-Agent .*VoilaBot BETA 1.2.* bad_bot
SetEnvIfNoCase User-Agent .*libwww-perl/5.805.* bad_bot
SetEnvIfNoCase User-Agent .*Java/1.5.0_11.* bad_bot
SetEnvIfNoCase User-Agent .*Sogou web spider/3.0.* bad_bot
SetEnvIfNoCase User-Agent .*psbot.* bad_bot
SetEnvIfNoCase User-Agent .*Exabot.* bad_bot
SetEnvIfNoCase User-Agent .*Charlotte/1.0b.* bad_bot
SetEnvIfNoCase User-Agent .*boitho.com-dc.* bad_bot
SetEnvIfNoCase User-Agent .*ajSitemap.* bad_bot
SetEnvIfNoCase User-Agent .*bot/1.0.* bad_bot
SetEnvIfNoCase User-Agent .*panscient.com.* bad_bot
SetEnvIfNoCase User-Agent .*Java/1.6.0_11.* bad_bot
SetEnvIfNoCase User-Agent .*WebDataCentreBot/1.0.* bad_bot
SetEnvIfNoCase User-Agent .*Java.* bad_bot
SetEnvIfNoCase User-Agent .*SapphireWebCrawler.* bad_bot
SetEnvIfNoCase User-Agent .*Yandex.* bad_bot
SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot
SetEnvIfNoCase User-Agent .*Rankivabot.* bad_bot
SetEnvIfNoCase User-Agent .*DBLBot/1.0.* bad_bot

order allow,deny
deny from env=bad_bot

moje
04-05-2012, 14:55
Ta lista powinna byc 3 razy dłuższa - jest taka na necie.

dkw
04-05-2012, 17:59
Dodałem kolejne wpisy, roboty dalej są :(

########## Block bad user agents ########## Blokowanie dostępu "złym robotom", programom site ripper, przeglądarkom ofline i innym "szkodnikom"
## The following list may include bots that no longer exist or are not a problem
## for your site. The list will always be incomplete and it is therefore wise to
## follow discussions on one of the many "security" mailing lists or on a forum
## such as http://www.webmasterworld.com/search_engine_spiders/
## It is also unwise to rely on this list as your ONLY security mechanism.
## Na poniższej liście mogą się znajdować boty, które już nie istnieją albo nie stanowią
## problemu dla Twojej witryny. Lista ta nigdy nie będzie kompletna i dlatego rozsądnym jest
## przeglądanie dyskusji na mailingowych listach bezpieczeństwa lub na forach
## takich jak http://www.webmasterworld.com/search_engine_spiders/
## Byłoby również wielce nierozsądnym, gdyby polegać na tej liście
## jako JEDYNYM mechanizmie zabezpieczającym Twoją witrynę
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
## Note: The final RewriteCond must NOT use the [OR] flag.

## Return 403 Forbidden error.
RewriteRule .* - [F]

moje
04-05-2012, 18:02
Poszukaj robala w kodzie strony.

Gall Anonim
04-05-2012, 18:26
Kurcze - daj blokadę wszystkiego poza google boot

dkw
04-05-2012, 20:27
Dzięki za pomysły, ale dalej nie potrafię się ich pozbyć

Kurcze - daj blokadę wszystkiego poza google boot
Mam zablokowane w robots.txt Natomiast w htaccess nie wiem jak :zagubiony:

Przeskanowałem kod fajnym skanerem i jest czysty - tu skaner http://vscan.novirusthanks.org/

moje
04-05-2012, 20:30
Skaner powinien być zainstalowany na serwerze, na którym masz hosting, to raz.
Dwa, zainstaluj sobie dobry skaner na komputerze i zainstalują dobrą przeglądarkę, potem skonfiguruj, żeby bllokowało Ci strony, z poddejrzanym kodem/podejrzanymi skryptami - używaj na codzień.

dkw
04-05-2012, 20:45
Hosting jest na cal.pl więc raczej mają skaner. Na komputerze mam dobry antywirus i czasami on blokuje przypadkowe strony w sieci - o mojej nic nie zgłasza. Więc sądzę że to nie problem z robakiem. Ale dzięki za pomysł.
Pomyliłem działy - moja wersja to 1.5.26

moje
04-05-2012, 21:33
Zmień skaner na swoim kompie. Jak przypuszczasz, co mają na serwerze, to czemu nie przypuścisz co jest problemem? Już dawno znalazłbyś rozwiązanie. Nie należy nieznanego uznawać za pewnik.

dkw
07-05-2012, 19:12
korzystam z kilku komputerów, na hostingu mam kilka serwisów niektóre są w sieci dużo dłużej, ten jest 1 rok. Boty na razie tylko siedzą (200 do 700 botów dziennie), generują 20 tys wejść dziennie.
Ma ktoś jeszcze jakiś pomysł??

Gall Anonim
07-05-2012, 19:21
Tak się zastanawiam - nie pamiętam czy w wersji free również ale RSfirewall ma blokadę DoS.

dkw
07-05-2012, 22:26
Dzięki za pomysł, zainstalowałem, jest

Protect against DoS attacks





jak i inne zabezpieczenia. Poczekamy i zobaczymy.

Dzięki :)

---------- Post dodany o 22:26 ---------- Poprzedni post był o 19:50 ----------

mam takie dane z maja


Statystyka w miesiącu maju 2012 roku





Liczba odwiedzin
108771


Wszystkich plików
99706


Wszystkie strony
73671


Wszytkie wizyty
1480


Całkowita liczba KB
1322817





Całkowita liczba unikalnych lokalizacji
257


Całkowita liczba unikalnych URLi
1235


Całkowita liczba unikalnych odnośników
49


Całkowita liczba unikalnych przeglądarek
95





.
Śr
Max





Wywołań na godzinę
647
2757


Odsłon dziennie
15538
31042


Pliki dziennie
14243
28992


Stron dziennie
10524
23578


Odwiedzin dziennie
211
514


KB dziennie
188974
372328





Hits Kod odpowiedzi





Code 200 - OK
99706


Code 206 - Częściowa zawartość
14


Code 301 - Przeniesiono na stałe
6


Code 303 - Zobacz Inne
883


Code 304 - Niezmodyfikowany
7593


404 Code - Not Found
554


Code 500 - Internal Server Error
15









Statystyki dzienne w maju 2012 roku





Dzień
Odsłon
Pliki
Strony
Wizyty
Witryny
KB





1
1619
1,49%
1431
1,44%
488
0,66%
123
8,31%
68
26,46%
11473
0,87%


2
8006
7,36%
6436
6,45%
3065
4,16%
152
10,27%
62
24,12%
101240
7,65%


3
11926
10,96%
10175
10,21%
6270
8,51%
168
11,35%
65
25,29%
148982
11,26%


4
26823
24,66%
25076
25,15%
18962
25,74%
297
20,07%
71
27,63%
332456
25,13%


5
31042
28,54%
28992
29,08%
23578
32,00%
237
16,01%
43
16,73%
372328
28,15%


6
29182
26,83%
27425
27,51%
21160
28,72%
514
34,73%
63
24,51%
354202
26,78%


7
173
0,16%
171
0,17%
148
0,20%
2
0,14%
3
1,17%
2135
0,16%

dkw
09-05-2012, 21:10
RSfirewall jest..
Niestety boty nadal siędzą - jest ich teraz od 200 do 300 - non stop.

Ma ktoś jakiś jeszcze pomysł?
Pzdr

moje
09-05-2012, 21:23
Masz po***rno na tej stronie? Albo kupiłeś od kogoś/po kimś tą domenę?

dkw
09-05-2012, 22:30
Nie ma tam por..., domena kupiona rok temu - świeża.
Jedynie co kojarzę to w dużym serwisie ogólnoświatowym podlinkowałem fotki ze strony i po pewnym czasie zaczęło się.

big_krzysiek
09-05-2012, 22:38
Nie zgłosił ktoś twojej domeny do dodawarek automatycznych?

dkw
09-05-2012, 22:46
Nie zgłosił ktoś twojej domeny do dodawarek automatycznych?

hmm, ja na pewno nie - może ktoś z użytkowników...
Pewnie tego sprawdzić się nie da

Gall Anonim
09-05-2012, 22:50
W narzędziach dewelopera google po zarejestrowaniu i zweryfikowaniu strony po dwóch, trzech dniach będziesz miał ilość linków do strony :-)

dkw
09-05-2012, 22:52
Fakt, mam zweryfikowaną - zobaczę. dzieki

big_krzysiek
09-05-2012, 23:07
Nie wiem, czy to dobry tok rozumowania, ale czytając poprzednie wypowiedzi, tylko to mi się nasunęło.
Efekt działania może być taki, że jeżeli strona w jakiś sposób została zaakceptowana (jako katalog, blog, forum itd) w którejś z dodawarek i dodana do jej bazy, będzie "atakowana" przez boty wszystkich użytkowników tego systemu.

moje
10-05-2012, 00:22
Ja tam na stronie (cześć @moje - link został usunięty na prośbę autora wątku - Pzdr Gall Anonim) nic nie widzę.

Nie zacząłeś korzystac z jakiegos narzędzia do statystyk? Czegos co ma poprawić PageRank?

Sprawdz czy Twoje słowa kluczowe na twojej stronie nie pokrywają się z zmorzona akcją (czynnością) w sieci producentak/sprzedwców Porsche? Być może jest to spontaniczne działanie, która może wynikać z wzmożonych działań osób trzecich, wykorzystujących takie same/podobne słowa kluczowe (bądź często pisane słowa) jakie występują na Twojej stronie.

dkw
10-05-2012, 21:56
W narzędziach dewelopera google po zarejestrowaniu i zweryfikowaniu strony po dwóch, trzech dniach będziesz miał ilość linków do strony :-)
Chyba nie to, linków nie przybyło...

---------- Post dodany o 12:47 ---------- Poprzedni post był o 12:45 ----------




Nie zacząłeś korzystac z jakiegos narzędzia do statystyk? Czegos co ma poprawić PageRank?

Z poprawą page rank i statystykami nic nie robiłem

Licznik odwiedzin - obecnie wyłączony (dzisiaj godz 13.00):
Dzisiaj 11665
Wczoraj 22662
Ten tydzień 85028
Poprzedni tydzień 63472
Ten miesiąc 145927
Poprzedni miesiąc 36954
Wszystkie 221584
Aktualnie: gości 5,
członków 1,
botów 269 połączonych

Tylko w 10 dni maja boty wygenerowały ruch około 140tys


---------- Post dodany o 13:28 ---------- Poprzedni post był o 12:47 ----------


Nie wiem, czy to dobry tok rozumowania, ale czytając poprzednie wypowiedzi, tylko to mi się nasunęło.
Efekt działania może być taki, że jeżeli strona w jakiś sposób została zaakceptowana (jako katalog, blog, forum itd) w którejś z dodawarek i dodana do jej bazy, będzie "atakowana" przez boty wszystkich użytkowników tego systemu.

Całkiem to możliwe, więc trzeba przeczekać.
A licznik Visitors Counter (http://vinaora.com/) - w tej sytuacji jest do niczego (zalicza każde wejście bota).
Dzięki.

---------- Post dodany o 21:56 ---------- Poprzedni post był o 13:28 ----------

Zainstalowany RSFirewall! wysłał mi alert o próbie logowania na zaplecze z Brazyli

Description: There was an unsuccessful attempt to login into the backend section of your website using an unknown username.
Alert level: Medium
Date of event: 10.05.2012 17:58:38
User IP: 200.98.132.226

moje
10-05-2012, 22:32
Na wszelki wypadek zainstaluj sobie dodatek Spadaj (pliki.joomla.pl) oraz dodaj do htaccess, wpisy zabespieczające przed sql injection.

Ja bym polecał zmienić hosting, bo być może to, że masz te boty jest spowodowane (nową) luką lub zmianą konfiguracyji serwera.

dkw
11-05-2012, 09:55
Dodatek "spadaj" mam, wpisy zabespieczające przed sql injection - muszę dodać - dzieki
Na hostingu ta jak pisałem mam kilka serwisów i to starszych i tam problemów nie ma.

Faktem jest, że ta strona została rozgłoszona bardziej (np.strona na facebooku) - i ktoś coś chce...tylko nie wiem kto i co ;(

Zablokowałem całą Brazylię bo ktos próbowal się logować na admina - ale to chyba zbieg okoliczności.... bo boty nadal siedzą
Dzięki wszystkim za rady, gdyby ktoś miał jescze jakiś pomysł...

dkw
01-06-2012, 19:11
Po około 30 dniach oblegania roboty/boty ustapiły. Zmobilizowało mnie to do maksymalnego zabezpieczania witryny - opisywanych na forum + codzienna kopia zgrywana automatycznie na dysk.

Niestety nie wiem co było przyczyną wyżej zaistniałej sytuacji. Dziękuję wszystkim za pomoc.

morphic
12-07-2012, 13:13
a szablon masz skąd?

Gall Anonim
13-07-2012, 00:05
Zasadniczo, zapomniałem zapytać -
czy strona była migrowana?
czy zmieniałeś ostatnio serwer?
ile masz artykułów, podstron, wpisów itp?
Pzdr