Paso 3: YQL (YAHOO QUERY LANGUAGE)
Por lo que hemos identificado donde en la página web de nuestro
son nombres de usuario. Ahora sólo necesitamos obtener esa información en un formato transitable. Normalmente, raspadores son construidos por apenas carga la página web entera en un denso árbol XML nodo formato. Se trata de un dolor de cabeza. Carga una página web en JSON es mucho más fácil porque nos permite acceder a elementos directamente a través del. operador. Para obtener la página web en formato JSON, que vamos a usar el lenguaje de consulta de Yahoo. YQL es básicamente una herramienta abierta construida por Yahoo a páginas web de consulta en Json. La lengua actual es muy similar a MYSQL. Este es el link para la consola:
https://developer.Yahoo.com/YQL/Console/
Aquí es cómo se ve: (imagen 1)
así que nuestra consulta es bastante sencilla:
Seleccione * de html donde url = "https://www.reddit.com/r/arduino/comments/3rixq5/i_programmed_a_robot_arm_to_feed_me_breakfast/" y xpath ='/ / a [contiene ()
Seleccione * sólo significa selecciona todo de la página web en la url = nuestro hilo de reddit.
Xpath, básicamente dice, buscar a través de la página y volver a cada lugar donde tenemos una etiqueta con una clase de "autor".
Como se puede ver la consulta es exitosa y devuelve todos los nombres de usuario hemos querido:(image 2)
Para obtener este resultado en un formato JSON, sólo haga clic en la ficha json: (imagen 3)