Estratificación Multivariada por el método de Componentes Principales y Dalenius-Hodges

Presentación

El siguiente ejemplo permite conocer el procedimiento a seguir para realizar una estratificación multivariada por el método de Componentes Principales y Dalenius-Hodges con en el SCINCE 2010.

El ejemplo consiste en estratificar las entidades federativas del país de acuerdo a ciertas características de las viviendas y describir las salidas que arroja el sistema.

Selección del método

El primer paso consiste en seleccionar el método de estratificación que se utilizará, para esto, diríjase al apartado de "Estratificación Multivariada" que se encuentra en la barra de herramientas ubicada en la parte derecha de la pantalla y seleccione la opción "Componentes principales y Dalenius-Hodges".

Componentes principales y Dalenius-Hodges

1 - Acuerdo de uso

Una vez seleccionado el método a utilizar se desplegará el menú de estratificación multivariada que se divide en tres secciones, las cuales se describirán paso a paso. En la primera de ellas, se da una breve descripción del método que se usará para estratificar y se pide al usuario leer y aceptar las condiciones de uso de la información.

Paso 1 - Acuerdo de uso

Nota: Es importante aceptar las condiciones de uso de la información, de lo contrario, el asistente no permitirá continuar con el procedimiento.

2 - Modelo

En esta sección, el usuario configurará las opciones que requiera para realizar la estratificación y seleccionará las variables a incluir en el modelo.

Paso 2 - Modelo

Opciones del modelo

En este apartado, el usuario especificará el número de estratos en los que quiere clasificar las observaciones, así como el tipo de análisis a usar. Para este ejemplo, se formarán cinco estratos a partir de las entidades federativas y el análisis se hará utilizando la correlación de las variables.

Opciones del modelo

NOTA: El uso de la matriz de covarianza sólo es apropiado cuando las variables tienen las mismas escalas. Se sugiere evitar incluir en el análisis variables medidas en unidades diferentes, tales como absolutos y porcentajes.

Selección de variables

Una vez definidas las opciones del modelo, se seleccionan las variables a incluir. Para este ejemplo se consideran tres variables:

  • Viviendas particulares habitadas con piso de tierra
  • Viviendas particulares habitadas que no disponen de luz eléctrica, agua entubada ni drenaje
  • Viviendas particulares habitadas que no disponen de refrigerador ni lavadora
Selección de indicadores

Selección temática

El usuario puede seleccionar las variables a incluir en su análisis mediante la opción de índice temático que despliega todas las variables disponibles agrupadas de acuerdo a la temática censal.

Selección de indicadores (Árbol)

Selección dinámica

Las variables seleccionadas también pueden ingresarse al modelo mediante la opción selección dinámica en la que el usuario teclea el nombre de la variable que desea incluir.

Selección de indicadores (Dinámica)

3 - Opciones de salida

En esta sección el usuario especificará los elementos que se incluirán en la salida del modelo y pulsará el botón "Generar" para ver los resultados del modelo de estratificación planteado.

Paso 3 - Opciones de salida

Resultados

Los resultados se presentan en cinco pestañas que deben analizarse cuidadosamente antes de ser utilizados.

Resultados

Resumen de resultados

La primera pestaña corresponde al resumen de resultados, el cual cuenta con diferentes elementos que se describen a continuación.

El primer resultado que el usuario debe analizar es el porcentaje de varianza explicada por la primera componente principal, este valor debe ser lo más cercano posible al 100% para que la estratificación con el método de Dalenius-Hodges sea adecuada.

Resumen de resultados

En este caso observamos que la primer componente principal explica el 85.85% de la varianza de los datos.

Resumen del modelo

Se muestra un resumen del modelo considerado para la estratificación, en este caso se tienen 32 observaciones correspondientes a las 32 entidades federativas y la estratificación se realiza considerando las tres variables seleccionadas para este ejemplo.

Resumen de resultados

Desviación estándar

Las componentes principales se construyen de manera que la primera componente sea la que explique el mayor porcentaje de varianza, o en otras palabras esta componente será la de mayor variabilidad. Para este modelo, la primera componente explica un porcentaje importante de varianza, lo que se ve reflejado también en la diferencia de la desviación estándar de ésta comparada con las siguientes dos componentes.

En este caso la desviación estándar de la primera componente es 2.68 veces más grande que la desviación estándar de la segunda componente principal.

Resumen de resultados

Primera componente

El apartado de importancia de las componentes principales presenta las estadísticas de resumen para las componentes principales. Dado que la estratificación se realiza considerando únicamente la primera componente principal, que por construcción es la que explica un mayor porcentaje de la varianza (85.85% para este modelo), el usuario deberá analizar principalmente las estadísticas asociadas a ésta.

Resumen de resultados

Segunda componente

Para este ejemplo, la segunda componente principal explica únicamente 11.97% de la varianza de los datos. Para este modelo, se considerará entonces adecuado realizar la estratificación aplicando el método de Dalenius-Hodges a la primera componente principal.

Resumen de resultados

Vectores de coeficientes

Los vectores de coeficientes presentan para cada variable incluida en el modelo, el coeficiente correspondiente a cada componente principal. El análisis de la magnitud y signo de los coeficientes asociados a la primer componente principal permiten al usuario determinar la contribución de cada variable al modelo.

En este caso, vemos que las tres variables contribuyen de manera similar al modelo de estratificación, las magnitudes de los coeficientes son similares y tienen el mismo signo. De esta manera, dado que las variables consideradas para el modelo corresponden a variables de carencias, las entidades con mayores carencias tendrán un valor de la primera componente principal más grande.

Resumen de resultados

Dalenius-Hodges

Finalmente se presentan las estadísticas asociadas a la estratificación de la primera componente principal aplicando el método de Dalenius-Hodges, tales como los valores de los límites de los estratos, el valor promedio de cada variable en cada estrato, etc. En este caso, el estrato cinco corresponderá al estrato con las entidades con mayores carencias respecto a las características incluidas en el modelo. Por el contrario en el estrato uno se agruparán las entidades con menos carencias en estos indicadores.

Resumen de resultados

Gráfica de sedimentación

Todas las gráficas que se presentan, tienen la opción de ser descargadas en formato PDF mediante el vínculo situado en la parte inferior. En este caso, se presenta la gráfica de sedimentación, en la que se observa un decremento abrupto en el porcentaje de varianza explicada para la segunda componente principal.

Gráfica de sedimentación

Biplot

Esta gráfica permite identificar que tan distantes se encuentran las observaciones en el plano de las dos primeras componentes principales. Para el ejemplo que se presenta, entre más a la derecha se encuentre una observación, mayores carencias tendrá, es decir los valores de los indicadores considerados serán más grandes. Las observaciones se identifican en la gráfica por su clave geográfica.

Biplot

Observaciones

En ese caso, observamos que las entidades con valores más grandes en la primera componente principal son Veracruz (30), Oaxaca (20) y Chiapas (07).

Biplot

Variables

Con el gráfico Biplot, se observa también por la magnitud de las flechas que las tres variables incluidas en el modelo contribuyen de manera similar al modelo. El ángulo entre estos vectores representa la correlación entre las variables, un ángulo muy pequeño entre dos variables indicaría una correlación muy importante y se consideraría la eliminación de una de ellas.

Biplot

Gráfica de centroides

Esta gráfica permite analizar el valor promedio de cada variable para cada estrato. Cada variable debe examinarse por separado, en este caso vemos que las tres variables tienen un comportamiento creciente, relativamente lineal. Observamos también que las diferencias entre los estratos uno y dos no son demasiado grandes, por lo que de requerir un número menor de estratos, éstos pudieran colapsarse.

Gráfica de centroides

Histograma

Esta gráfica presenta la frecuencia de casos en cada estrato. Una frecuencia muy baja en algún estrato podría indicar la presencia de observaciones atípicas.

Histograma

Mapa temático

Una vez que el usuario haya analizado los resultados de la estratificación multivariada y considere que el modelo es adecuado, se pulsa el botón "Cerrar y ver mapa" para visualizar el mapa temático producto de la estratificación.

Mapa temático

Nota: La inclusión de variables con poca frecuencia en modelos de estratificación a nivel de Ageb o manzana, puede ocasionar la inhabilitación de gran parte de las áreas geográficas debido a los criterios de confidencialidad.