Hay bots buenos y hay malos bots. Buena bots (robots que arrastran de un sitio web) gatean e indexar su sitio y en el tráfico. Los robots malos consumen ancho de banda, ralentizar su servidor, roban su contenido y buscan vulnerabilidad comprometer el servidor.
Yo he batallado en los últimos 15 años como administrador de sistemas. Este 'Cómo' se basa en mi experiencia personal. Bots malos vienen en todos los tamaños y diferentes cadenas User-Agent para identificarse. Hay muchos bots por ahí - que puede rastrear su sitio con diferentes niveles de rapidez. Aunque muchos son inofensivos. Otro de los motores de búsqueda, algunos robots son operados por otras agencias legítimas para determinar la mejor coincidencia de campaña para el contenido de la página para un anunciante potencial o buscar vincular información o tomar una instantánea para fines de archiving.
Se puede encontrar una lista de los bots comunes aquí:
Lo podríamos decir - obedecen las directivas de Robots.txt en un determinado sitio Web. La lista contiene los bots con información de identificación personal en su campo User-Agent. Cuando navegas a través de la lista, usted también encontrará que muchos motores de búsqueda principales cambiar cadenas de agente de usuario según su necesidad. Los robots más decentes le dará su enlace de contacto en su cadena de agente de usuario para ayudar a los webmaster a comunicar su preferencia o a ofrecer formas de bloque desde el archivo de texto - Robots.txt
Puede ralentizar la velocidad de arrastre o denegar el acceso a ciertos directorios de ese archivo de texto.
Por ejemplo, se puede denegar el acceso a todas las páginas en su raíz para este bot 'Zum' del archivo robots.txt como aquí:
User-agent: ZumBot
Disallow: /
Todos los robots regulares leerá este archivo y obedecer las directivas contenidas allí. Pero malos bots no se molesten a leer su archivo de robots o leer para saber cuáles son los directorios prohibidos a gatear. Por eso, este ' Cómo identificar malos bots utiliza un simple ardid para detectar su intención y crear un archivo de registro de acción.
Paso 1: crear un archivo que puede escribir un registro en su servidor. He dado un Perl script aquí bots.pl. Asegúrese de que este archivo se guarda en su directorio cgi-bin (suponiendo que el servidor puede ejecutar script Perl). Establezca el permiso para ejecutar este archivo de texto. Encienda su navegador y apuntar a esta página. Usted puede leer la cadena de User Agent del navegador, su dirección IP, la página de referente (será en blanco ahora) y la hora del servidor en el que fue servida esta petición. Por cierto, usted verá una página en blanco.
Paso 2: el bots.pl arriba de la página debería estar vinculado desde su índice - ocultado a los visitantes humanos.
Crear un enlace así:
< a href = "tu domain/cgi-bin/bots.pl >< /a >
Ahora se establecen. El archivo de registro contiene los detalles de los robots malos. Pero esperar. Para conservar ancho de banda más bots normales los almacenará en caché el robots.txt. Así que es una posibilidad que puede haber en caché tu robots.txt antes y puede no ser conscientes de la nueva Directiva. En tal caso, le arrastran esta página bloqueada. Así que ignorarlos en su lista.
Bloqueo de robots malos
Revise este archivo malo-bots más adelante para otras medidas correctivas. Hay muchas maneras de negar el acceso a estos robots no deseados.
Opción 1:
Usted puede comprobar la dirección IP contra una lista blanca (añadir tu propia dirección IP así como de los principales motores de búsqueda en la lista blanca) y las direcciones IP finales pueden ser bloqueadas en el firewall.
O asignar la cadena de agente de usuario a la lista denegar que puede resultar en 403 – estado (prohibido). Utiliza menos recursos del servidor.
Por ejemplo, uno de nuestros sitios utiliza un script CGI en nuestro CMS. El siguiente fragmento de código le enviará un estado prohibido 403 – para agentes de usuario wget y Zum:
Si ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/i) {}
Imprimir "estado: 403 Forbidden\n"; Imprimir "contenido-tipo: texto / html \n\n"; salida; }
Opción 2:
Puede usar .htaccess para bloquear los robots malos suponiendo que utiliza el servidor Apache HTTP. En caso de tener unos robots malos que utilizan una particular cadena User-Agent regularmente, es fácil de bloquear en esa cadena.
SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Acertijo" bad_user
Negar de env = bad_user
El Instructable arriba se basa en este blog.
Gracias por leer este Instructable. Estaré encantado de responder cualquier consulta relacionada con este Instructable en la sección de comentarios.