Paso 2: Su primera raspadura: apropiación de los nombres de usuario de un hilo de Reddit
https://www.reddit.com/r/Arduino/Comments/3rixq5/i...
El primer paso en la construcción de un raspador siempre va a ser
la identificación de lo que nuestra información está etiquetado bajo. En este caso, queremos que todos los nombres de usuario en los comentarios de un hilo de reddit. Así que vamos a utilizar google chrome Inspeccione la herramienta elemento para averiguar lo que el nombre de usuario está etiquetado como. (imagen 1)
Esto debe traer la siguiente terminal con el nombre de usuario destacado: (2)
Vemos que los nombres de usuario en un hilo de reddit se relacionan con vínculos con la clase "autor". Ahora aquí está la parte difícil: necesitamos alguna manera de ordenar a través de todos los elementos de la página web diferente para pasar a la etiqueta con la clase "autor". Como se puede ver no es un viaje fácil porque estos enlaces se encuentran el:
< div clase = "commentarea" >
que entonces se cae en
< div id = "siteTable_t3_3rixq5" class = "sitetable nestedlisting" >
que caiga en el aún más elementos de html. Para reducir al mínimo la
cantidad de javascript que tenemos que escribir, que vamos a externalizar el análisis actual de nuestra página web al idioma de YQL de Yahoo. Esto recorrer a través de todos los elementos html diferentes y nos devuelven las preciosas etiquetas que deseamos. No te preocupes si eres confuso ahora mismo; el siguiente paso será hacer las cosas más claro.