Nota: xx/55
En este trabajo se analizarán los datos de la ciudad de Barcelona de acuerdo a los objetivos propuestos en el trabajo.
Para el obligatorio se deberán utilizar las herramientas utilizadas en el curso. Deberá seleccionar un conjunto de datos tabulares con más de 4 tablas y deberá seleccionar 8 preguntas relativas a los datos para contestarlas.
Parte 1
Los pasos a seguir son:
- Tomar los datos que fueron seleccionados junto al docente.
- Realizar un análisis exploratorio de los datos vía pandas, identificando el tipo de datos que hay en cada columna y que significado tienen dentro del dominio de los datos
- Revisar valores nulos o faltantes y limpiarlos si es necesario. Revisar registros duplicados. Claves primarias únicas.
- Los archivos resultantes se deberán almacenar en otra carpeta.
- A partir de estos nuevos archivos, se deben crear visualizaciones dentro de otro notebook con las herramientas dadas en clase u otras de elección del equipo, que ayuden a responder las preguntas seleccionadas.
Parte 2
El mismo análisis realizado en la parte 1 realizarlo vía Spark, ya sea dentro de la máquina virtual si se tienen créditos si no dentro de Google Collab.
Parte 3
Se píde desarrollar un dashboard que responda algunas de las preguntas planteadas, implementado en Tableau Public o superset.
Parte 4
Una vez que termine con la exploración y limpieza de datos, deberá elegir una forma de modelarlos, esta puede ser, Normalizada, Diagrama Estrella, Data Vault, o OBT. Describir en Hive, como lo modelaría, que tablas crearía y de que tipo (externas, internas).
A continuación se muestra una tabla con los 17 datasets utilizados en el análisis de datos de la ciudad de Barcelona, junto con su nombre y enlace a su ubicación:
Nombre del dataset | Enlace | Dataset limpiado | Para Tableau |
---|---|---|---|
Accidents 2017 | Enlace 1 | Nuevo 1 | |
Air quality Nov 2017 | Enlace 2 | Nuevo 2 | |
Air stations Nov 2017 | Enlace 3 | Nuevo 3 | |
Births | Enlace 4 | Nuevo 4 | |
Bus stops | Enlace 5 | Nuevo 5 | Tableau 5 |
Deaths | Enlace 6 | Nuevo 6 | Tableau 6 |
Immigrants by nationality | Enlace 7 | Nuevo 7 | |
Immigrants emigrants by age | Enlace 8 | Nuevo 8 | |
Immigrants emigrants by destination | Enlace 9 | Nuevo 9 | |
Immigrants emigrants by destination 2 | Enlace 10 | Nuevo 10 | |
Immigrants emigrants by sex | Enlace 11 | Nuevo 11 | |
Life expectancy | Enlace 12 | Nuevo 12 | |
Most frequent baby names | Enlace 13 | Nuevo 13 | |
Most frequent names | Enlace 14 | Nuevo 14 | |
Population | Enlace 15 | Nuevo 15 | Tableau 15 |
Transports | Enlace 16 | Nuevo 16 | Tableau 16 |
Unemployment | Enlace 17 | Nuevo 17 |
- ¿Cuál es la relación entre las paradas de autobús y la densidad de población en diferentes barrios?, ¿influye el transporte publico?
- ¿Cuál es la nacionalidad más común entre los inmigrantes en Barcelona?
- ¿cómo varía la cantidad de nacimientos por género con el tiempo en diferentes distritos y barrios de Barcelona?
- ¿Cuál es la relación entre la cantidad de accidentes y la densidad de población en diferentes barrios?, ¿influye la calidad del aire?
- ¿Cómo varía la esperanza de vida en diferentes barrios de Barcelona?
- ¿Cuál es la relación entre la cantidad de inmigrantes y los niveles de desempleo en los diferentes barrios?
- ¿Cuales son los nombres mas populares en Barcelona?, ¿influye la inmigración?
- ¿Cual es la relación entre las muertes, el desempleo y la inmigración en diferentes barrios de Barcelona?
Parte 1
Ver Notebook de Análisis de Datos
Ver Notebook de Respuestas a Preguntas
Parte 2
Ver Notebook de Análisis con Spark
Parte 3
Parte 4
En este trabajo se analizaron los datos de la ciudad de Barcelona, se realizaron visualizaciones y se respondieron preguntas planteadas. Se utilizó tanto Python con Pandas y otras librerias, asi como también Spark para el análisis de los datos. Se crearon dashboards en Tableau Public y se presentó un modelado teórico de los datos en Hive.