Paso 2: Limpia conjuntos de datos
Este fue un proceso iterativo y finalmente lo tengo clasificado hacia fuera pero no sin un montón de horas y dolores de cabeza.
El problema principal con los datos es:
(1) no era totalmente limpia, lo que significa que los datos de tubería no coincidan con todos los nodos. Había algunas cadenas de identificación que fueron duplicados, falta y más. Sobre todo estaba bien, pero necesita cuidado algorítmica.
(2) cuando reuní los nodos, había un montón de pequeñas subredes aisladas en lugar de una gigante red de datos. Empecé con unos 30.000 puntos y la red de «primaria» estaba cerca de 28.000 puntos. Acabé teniendo toda clase de mini-redes de datos de la tubería: dondequiera a partir 2 a 100 tamaño. Como un objeto impreso en 3d, deben ser un objeto único, coherente, de lo contrario la impresión 3D se deshagan.
Mi código analizador hace todo lo posible para limpiar los datos y descartar lo que no necesito.
Escribí el código en Java, que no es el motor más eficaz: es lento y pesado de código, pero es un lenguaje que conozco bien son hay muchas librerías JSON convenientes para él como la librería gson.
Las librerias de json en OpenFrameworks, el abrir-fuente C++ toolkit — le han sido rápidos, pero requieren una gran cantidad de extra compilar. También una vez que está ejecutando, no terminan por darme la personalización que tengo en las exportaciones de campo de datos de Javas.
Python ofrece buenas herramientas de análisis, pero no una interfaz de usuario bastante decente. JavaScript es probablemente la mejor solución, pero lo suficientemente bien (todavía) no sé el medio ambiente.