Semalt gir tips om hvordan du skal takle roboter, edderkopper og crawlers

Bortsett fra å lage søkemotorvennlige nettadresser, lar .htaccess-filen webansvarlige blokkere bestemte roboter fra å få tilgang til nettstedet sitt. En måte å blokkere disse robotene på er gjennom robots.txt-filen. Ross Barber, Semalt Customer Success Manager, uttaler imidlertid at han har sett noen gjennomsøkere ignorere denne forespørselen. En av de beste måtene er å bruke .htaccess-filen for å hindre dem i å indeksere innholdet ditt.

Hva er disse roboter?

De er en type programvare som brukes av søkemotorer for å slette nytt innhold fra internett for indekseringsformål.

De utfører følgende oppgaver:

  • Besøk websider du har lenket til
  • Kontroller HTML-koden for feil
  • De lagrer hvilke nettsider du lenker til og ser hvilke nettsider som lenker til innholdet ditt
  • De indekserer innholdet ditt

Noen bots er imidlertid ondsinnet og søker på nettstedet ditt etter e-postadresser og skjemaer som vanligvis brukes til å sende deg uønskede meldinger eller spam. Andre ser til og med etter smutthull i koden din.

Hva er nødvendig for å blokkere webcrawler?

Før du bruker .htaccess-filen, må du sjekke følgende ting:

1. Nettstedet ditt må være på en Apache-server. I dag, selv de webhotellfirmaene som er halvt anstendige i jobben sin, gir deg tilgang til den nødvendige filen.

2. Du bør ha tilgang til de rå serverloggene på nettstedet ditt, slik at du kan finne hvilke boter som har besøkt websidene dine.

Vær oppmerksom på at det ikke er mulig at du kan blokkere alle skadelige roboter med mindre du blokkerer dem alle, til og med de du anser som nyttige. Nye roboter dukker opp hver dag, og eldre blir endret. Den mest effektive måten er å sikre koden din og gjøre det vanskelig for roboter å spam deg.

Identifisere roboter

Bots kan enten identifiseres med IP-adressen eller fra deres "User Agent String", som de sender inn HTTP-overskriftene. For eksempel bruker Google "Googlebot."

Du trenger kanskje denne listen med 302 boter hvis du allerede har navnet på boten du vil holde unna ved å bruke .htaccess

En annen måte er å laste ned alle loggfilene fra serveren og åpne dem ved hjelp av en tekstredigerer. Plasseringen deres på serveren kan endre seg, avhengig av serverens konfigurasjon. Hvis du ikke finner dem, kan du søke hjelp fra webverten din.

Hvis du vet hvilken side som ble besøkt, eller tidspunktet for besøket, er det lettere å komme med en uønsket bot. Du kan søke i loggfilen med disse parametrene.

En gang har du lagt merke til hvilke roboter du trenger å blokkere; du kan deretter inkludere dem i .htaccess-filen. Vær oppmerksom på at blokkering av bot ikke er nok til å stoppe det. Det kan komme tilbake med en ny IP eller navn.

Slik blokkerer du dem

Last ned en kopi av .htaccess-filen. Gjør sikkerhetskopier om nødvendig.

Metode 1: blokkering av IP

Denne kodebiten blokkerer bot ved å bruke IP-adressen 197.0.0.1

Bestill Nekt, tillat

Nekt fra 197.0.0.1

Den første linjen betyr at serveren vil blokkere alle forespørsler som samsvarer med mønstrene du har spesifisert, og tillater alle andre.

Den andre linjen forteller serveren å utstede en 403: forbudt side

Metode 2: Blokkering av brukeragenter

Den enkleste måten er å bruke Apaches omskrivningsmotor

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Den første linjen sikrer at omskrivningsmodulen er aktivert. Linje to er betingelsen som regelen gjelder. "F" på linje 4 forteller serveren å returnere en 403: forbudt mens "L" betyr at dette er den siste regelen.

Du vil deretter laste opp .htaccess-filen til serveren din og overskrive den eksisterende. Med tiden må du oppdatere botens IP. I tilfelle du gjør en feil, bare last opp sikkerhetskopien du har laget.