Paso 1: Teoría detrás de raspado
Dicen que tenía un sitio web simple que veía como la siguiente
Podemos ver que la información que se encuentra en un span con la clase "hiInstructables". (Imagen 1) Resulta que sitios web es muy constante cuando un pedazo de información de etiquetado. Por lo que podemos suponer que si hubiera varias piezas vitales de la información que necesitábamos, etiquetados con la misma clase como este: (imagen 2)
Así que este aborda la esencia de raspar. Sitios web utiliza un formato específico para el etiquetado de su contenido. Si nosotros podemos averiguar lo que es de formato, entonces podemos hacer un programa automáticamente busca las etiquetas en este formato para obtener los datos que necesitamos.