Paso 5: Limpiar y convertir los datos
Los conjuntos de datos crudos que obtuve fueron en varios formatos: JSON, CSV y TSV aún. Los campos son torcidos, los datos pueden ser glitchy y mi objetivo es terminar con el mismo formato para cada conjunto de datos, en última instancia asignado a archivos vectoriales usando OpenFrameworks, un popular conjunto de herramientas C++ online.
A veces, pude lograrlo con un programa de hoja de cálculo como Excel, números o mi nuevo favorito, KaliedaGraph.
Otras veces, batir hacia fuera mi propio código de conversión de datos en Python, que está basada en mi código de SF_Geocoder . La ventaja con este código es que tomar intersecciones en cualquier ciudad y utilizar el API de Google Maps para generar lat/longs.
El formato del archivo que genera en última instancia, para cada conjunto de datos fue un CSV estándar con:
columna 1 = descriptor primario (como un número de identificación)
columna 2 = descriptor primario (como una fecha)
columna 3 = latitud
columna 4 = longitud
columna 5 = tamaño
El campo tamaño a menudo es ignorado en conjuntos de datos tales como avistamientos de ovnis y los desalojos de San Francisco pero se utiliza para ampliar las formas de conjuntos de datos tales como las cárceles de Estados Unidos, donde el tamaño es la población de la prisión.