Análisis de la España Despoblada

Ander Fernández Jauregui.

Ander Fernández Jauregui

Data Scientist y Business Intelligence.

Problema Inicial

Hoy en día se habla mucho de que España está «despoblada». Si bien existen datos sobre la despoblación, como los pueblos con menos habitantes o menor densidad, existen pocos proyectos que muestren este proceso de «despoblación».

Cuestiones Involucradas

  • Business Intelligence
    • Transformación de Datos
    • Integración de Datos
  • Visualización de Datos
    • Tableau

Solución

Crear una dashboard de Business Intelligence que integre datos de distintas instituciones públicas (Instituto Nacional de Estadística, delimitadores geográficos, etc.) para poder analizar cómo se ha dado la despoblación desde 1996 hasta hoy en día.

Desarrollo del Proyecto

Share on linkedin
Share on twitter
Share on email

Share on linkedin
Share on twitter
Share on email

Comprensión de Datos

Obtención de los datos

Para poder realizar este análisis hemos requerido de datos procedentes de distintas fuentes, lo cual detallaremos en este apartado. Por un lado, contamos con los datos de población de los municipios de España desde 1996 a 2018, que proviene del Instituto Nacional de Estadística (INE).

Asimismo, para poder plasmar los datos en un mapa, requerimos de los datos topográficos de los municipios de España, ya sea en forma shape o geoJSON. Para realizar el análisis de la Epaña despoblada usaremos Tableau, el cual lee ambos formatos, por lo que no hay problema. Esta información la obtendremos del Centro Nacional de Información Geográfica (CNIG).

Por último, para poder hacer el análisis de la España despoblada por comunidad autónoma, requeriremos de una tabla que nos identifique la provincia con la comunidad autónoma. Esto lo podemos obtener desde el INE (fuente).

 

Descripción y selección de los datos

Para cada uno de los diferentes archivos obtendremos diversos datos. Sin embargo, únicamente seleccionaremos y describiremos aquellos que nos importen:

  • Datos topográficos: delimitación geográfica de cada uno de los municipios de España, el nombre del municipio.
  • Datos de población: nombre del municipio, el año del dato, nombre de la provincia a la que pertenece dicho municipio.

En el caso de los datos de población, habrá que descargarse varios excels (uno por año). Si bien se podrían conectar todos a Tableau directamente, en mi opinión es más fácil y rápido cargar todos los datos en un mismo Excel y trabajar desde ahí, puesto que en este proyecto requiere de mucha homogeneización de datos. Ahora bien, eso a elección de cada uno.

 

Preparación de Datos

Limpieza de datos

La limpieza de datos es la guinda del análisis de la España despoblada. Las razones son varias:

  • El nombre de un municipio puede que haya cambiado de 1996 a 2018. De hecho, hay municipios que han cambiado 3 veces de nombre. En este sentido, hay dos tipos de municipios:
    • Municipios que han cambiado de nombre a otro que se asemeja.
    • Municipios que han cambiado de nombre a otro que no se asemeja. Esto ocurre sobre todo en Valencia o Navarra, donde hay municipios que han pasado a escribirse en valenciano o euskera, respectivamente. Además, para colmo, no existe una base de datos que registre los nombres de los municipios (o al menos yo no la he encontrado). Por eso, en estos casos, la única forma de asegurarse una correcta homogeneización es buscarlo en internet para conocer el nombre anterior.
  • La forma de escribir el nombre de los municipios y las provincias es diferente para distintos años.
  • Existen municipios que son «nuevos» (creados después del 1996) o que han desaparecido en el intervalo a analizar.
  • Existen municipios que se llaman igual.
  • Y, por último, hay muchos municipios (más de 8.000 por año), lo cual puede eternizar un poco el proceso.

En ese sentido, he comenzado el análisis de la España despoblada unificando calculando el número de apariciones del municipio dentro de la base de datos mediante una implementación matricial de la fórmula O en Excel. Al contar con datos de 22 años, sabemos que aquellos datos que tienen una aparición de 22 son correctos.

Aquellos datos con una aparición inferior a 22 o bien han cambiado de nombre o son nuevos/han desaparecido. En estos casos, se debe hacer un análisis individualizado de todos los casos.

Una vez se disponen de todos los nombres corregidos, se deben unificar con aquellos que aparecen en el archivo shape porque, por desgracia, el archivo shape no cuenta con el identificador del municipio. Para ello, copiamos los nombres de los municipios en el archivo shape al excel y comprobamos si aparecen o no mediante una implementación matricial de O.

En caso de que el nombre no concuerde (valor Falso), deberemos unificar dichos nombres, ya sea mediante una tabla intermedia o cambiando el nombre de los datos de origen.

 

Enriquecimiento de datos

Una vez tenemos los datos, podemos ver la evolución de la población por municipio, pudiendo filtrar por provincia. Sin bien es un dato interesante, no es suficiente. Por ello, es necesario enriquecer los datos, para poder hacer un análisis más interesante.

En mi caso, he enriquecido los datos mediante la inclusión de la comunidad autónoma y el cálculo de la variación de la población por municipio de 1996 a 2018 tanto por municipio como provincia y comunidad autónoma.

Para el primer caso, simplemente debemos integrar los datos descargados del INE (ver apartado «Obtención de datos») mediante una join. En el segundo caso, tenemos dos opciones:

  • Utilizar un «programa» externo a Excel,  como el lenguaje de programación R, para reducir el proceso a unas pocas líneas de código.
  • Usar tablas dinámicas en Excel con algunos con los cuales posteriormente hacer cálculos.

En mi caso utilicé R de cara al análisis de la variación de población en municipios (demasiado grande para Excel), mientras que usé las tablas dinámicas para las provincias y las comunidades autónomas. Una vez más, elección libre del analista.

Una vez obtengamos dichos datos los unimos a nuestro data source inicial, y ya tendríamos todos los datos preparados para analizar, tal como se puede ver en el Tableau que he incrustado.

 

Análisis de la España despoblada

De cara al