Semalt ponuja nasvete, kako se spoprijeti s boti, pajki in pajki

Datoteka .htaccess poleg ustvarjanja URL-jev, ki so prijazni iskalnikom , omogoča, da spletni skrbniki blokirajo dostop določenih botov do njihovega spletnega mesta. Eden od načinov za blokiranje teh robotov je prek datoteke robots.txt. Vendar pa je Ross Barber, vodja uspeha stranke Semalt , navedel, da je videl, da nekateri pajki ignorirajo to zahtevo. Eden najboljših načinov je uporaba datoteke .htaccess, da prepreči indeksiranje vaše vsebine.

Kaj so ti boti?

So vrsta programske opreme, ki jo iskalniki uporabljajo za brisanje novih vsebin iz interneta za namene indeksiranja.

Izvajajo naslednje naloge:

  • Obiščite spletne strani, s katerimi ste povezani
  • Preverite svojo kodo HTML glede napak
  • Shranijo spletne strani, na katere povezujete, in si ogledajo, katere spletne strani povezujejo z vašo vsebino
  • Indeksirajo vašo vsebino

Nekateri pa so zlonamerni in iščejo po vašem spletnem mestu po e-poštnih naslovih in obrazcih, ki se običajno uporabljajo za pošiljanje neželenih sporočil ali neželene pošte. Drugi celo iščejo varnostne vrzeli v vaši kodi.

Kaj je potrebno za blokiranje spletnih pajkov?

Pred uporabo datoteke .htaccess morate preveriti naslednje:

1. Vaše spletno mesto mora biti prikazano na strežniku Apache. Dandanes vam tudi tista podjetja, ki ponujajo spletno gostovanje, napol dostojna pri svojem delu, dostop do zahtevane datoteke.

2. Morali bi imeti dostop do neželenih dnevnikov strežnika svojega spletnega mesta, tako da lahko najdete, kateri boti so obiskali vaše spletne strani.

Upoštevajte, da ne boste mogli blokirati vseh škodljivih botov, razen če ne blokirate vseh, tudi tistih, za katere menite, da so koristni. Vsak dan se pojavijo novi boti, starejši pa se spreminjajo. Najučinkovitejši način je, da zaščitite svojo kodo in boti težko pošiljajo neželeno pošto.

Prepoznavanje botov

Bote je mogoče prepoznati po naslovu IP ali iz njihovega niza "User Agent String", ki ga pošljejo v glavah HTTP. Google na primer uporablja »Googlebot«.

Ta seznam boste morda potrebovali s 302 boti, če že imate ime bota, ki bi ga radi obdržali .htaccess

Drug način je, da naložite vse datoteke dnevnika s strežnika in jih odprete z urejevalnikom besedil. Njihova lokacija na strežniku se lahko spremeni, odvisno od konfiguracije vašega strežnika. Če jih ne najdete, poiščite pomoč pri svojem spletnem gostitelju.

Če veste, katero stran je obiskala ali čas obiska, je lažje priti z neželenim botom. Lahko iščete datoteko dnevnika s temi parametri.

Ko ste enkrat opazili, katere bote morate blokirati; jih lahko nato vključite v datoteko .htaccess. Upoštevajte, da blokiranje bota ni dovolj, da bi ga zaustavili. Lahko se vrne z novim IP ali imenom.

Kako jih blokirati

Prenesite kopijo datoteke .htaccess. Po potrebi naredite varnostne kopije.

1. način: blokiranje s strani IP

Ta delček kode blokira bot s pomočjo naslova IP 197.0.0.1

Naročite zavrni, dovoli

Zavrni od 197.0.0.1

Prva vrstica pomeni, da bo strežnik blokiral vse zahteve, ki ustrezajo vzorcem, ki ste jih določili, in dovolil vsem drugim.

Druga vrstica pove strežniku, naj izda stran 403: prepovedano

2. način: Blokiranje s strani uporabniških agentov

Najlažji način je uporaba motorja za prepisovanje Apache

Vnovično zapisovanje jezika vklopljeno

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prva vrstica zagotavlja, da je omogočen modul za prepisovanje. Druga vrstica je pogoj, za katerega velja pravilo. Vrstica "F" v vrstici 4 sporoči strežniku, naj vrne številko 403: prepovedano, medtem ko "L" pomeni, da je to zadnje pravilo.

Nato boste na strežnik prenesli datoteko .htaccess in prepisali obstoječo. S časom boste morali posodobiti IP bota. Če naredite napako, samo naložite varnostno kopijo, ki ste jo naredili.