Back to Question Center
0

Semalt sniedz padomus, kā rīkoties ar robotiem, zirnekļiem un robotiem

1 answers:

Papildus meklētājprogrammas draudzīgu URL izveidošanai .htaccess fails ļauj tīmekļa pārziņiem bloķēt konkrētus robotus no piekļuves viņu vietnei. Viens veids, kā bloķēt šos robotus, ir failā robots.txt. Tomēr Ross Bārberis, Semalt klientu veiksmes menedžeris, paziņoja, ka ir pamanījis, ka dažas rāpuļprogrammas ignorē šo pieprasījumu. Viens no labākajiem veidiem ir izmantot .htaccess failu, lai izvairītos no satura indeksēšanas.

Kādi ir šie robotprogrammatūras?

Tie ir programmatūras veids, ko izmanto meklētājprogrammas, lai indeksācijas nolūkos izdzēstu jaunu saturu no interneta.

Viņi veic šādus uzdevumus:

  • Apmeklējiet tīmekļa lapas, kuras esat saistījis ar
  • Pārbaudiet savu HTML kodu par kļūdām
  • Tās ietaupa, uz kādām tīmekļa lapām piesaistaties, un noskaidro, kuras tīmekļa lapas saista ar jūsu saturu
  • .
  • Tie indeksē jūsu saturu

Tomēr daži roboti ir ļaunprātīgi un meklē jūsu vietni e-pasta adresēm un veidlapām, kuras parasti izmanto, lai nosūtītu jums nevēlamus ziņojumus vai surogātpastu. Citi pat meklē kodu jūsu drošības nepilnības .

Kas ir nepieciešams, lai bloķētu tīmekļa rāpuļprogrammas?

Pirms lietojat failu .htaccess, jums jāpārbauda šādas lietas:

1. Jūsu vietnei jādarbojas Apache serverī. Mūsdienās, pat tie web hosting uzņēmumi, kas pusi pienācīgas savā darbā, dod jums piekļuvi vajadzīgajam failam.

2. Jums vajadzētu būt piekļuvei jūsu tīmekļa vietnei neapstrādātajiem servera žurnāliem, lai jūs varētu atrast, kuri robotprogrammatūras ir apmeklējuši jūsu tīmekļa lapas.

Ņemiet vērā, ka jūs nevarat bloķēt visus kaitīgos robotus, ja vien neesat bloķējuši tos visus, pat tos, kurus jūs uzskatāt par noderīgiem. Katru dienu tiek parādīti jauni boti, un vecāki tiek modificēti. Visefektīvākais veids ir aizsargāt savu kodu un padarīt to grūti, lai robotprogrammatūra tiktu surogātpasta.

identifikācijas roboti

Botus var vai nu identificēt pēc IP adreses vai no viņu "User Agent String", kuru viņi sūta HTTP galvenes. Piemēram, Google izmanto Googlebot.

Jums var būt nepieciešams šis saraksts ar 302 robotprogrammatūru, ja jums jau ir bot nosaukumu, kuru vēlaties noturēt, izmantojot .htaccess

Vēl viens veids ir lejupielādēt visus log failus no servera un tos atvērt, izmantojot teksta redaktoru. To atrašanās vieta serverī var mainīties atkarībā no jūsu servera konfigurācijas. Ja jūs nevarat atrast tos, meklējiet palīdzība no jūsu tīmekļa mitinātāja.

Ja jūs zināt, kura lapa ir apmeklēta vai apmeklējuma laiks, vieglāk atnākt ar nevēlamu bot. Jūs varat meklēt žurnāla failu ar šiem parametriem .

Kad esat atzīmējuši, kuri robotprogrammatūras jums ir jābloķē; tad varat tos iekļaut .htaccess failā. Lūdzu, ņemiet vērā, ka, lai to apturētu, nav pietiekami daudz bloķēšanas. Tas var atgriezties ar jaunu IP vai nosaukumu.

Kā tos bloķēt

Lejupielādējiet .htaccess faila kopiju. Veiciet dublējumkopijas, ja nepieciešams.

1. metode: bloķēšana ar IP

Šis koda fragments bloķē bot, izmantojot IP adresi 197.0.0.1

Pasūtīt noliegt, atļaut

Aizliegt no 197.0.0.1

Pirmā rindiņa nozīmē, ka serveris bloķē visus pieprasījumus, kas atbilst jūsu norādītajiem modeļiem, un ļauj visiem citiem .

Otrajā rindā serveris izsniedz 403: aizliegto lapu

2. metode: lietotāju bloķēšana

Visvienkāršākais veids ir izmantot Apache pārrakstīšanas dzinēju

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Pirmā rindiņa nodrošina, ka pārrakstīšanas modulis ir aktivizēts. Otrais rindiņš ir nosacījums, uz kuru attiecas šis noteikums. "F" 4. rindā liek serverim atgriezt 403: Aizliegts, kamēr "L" nozīmē, ka tas ir pēdējais noteikums.

Pēc tam jūs augšupielādēsit .htaccess failu savā serverī un pārraksta esošo. Ar laiku jums būs jāatjaunina bota IP. Ja veicat kļūdu, vienkārši augšupielādējiet dublējumu, kuru esat veicis .

November 29, 2017
Semalt sniedz padomus, kā rīkoties ar robotiem, zirnekļiem un robotiem
Reply