Estratificación Multivariada por el método de K-medias

Presentación

El siguiente ejemplo permite conocer el procedimiento a seguir para realizar una estratificación multivariada por el método de K-medias con en el SCINCE 2010.

El ejemplo consiste en estratificar las entidades federativas del país de acuerdo a ciertas características de las viviendas y describir las salidas que arroja el sistema.

Selección del método

El primer paso consiste en seleccionar el método de estratificación que se utilizará, para esto, diríjase al apartado "Estratificación Multivariada" que se encuentra en la barra de herramientas ubicada en la parte derecha de la pantalla y seleccione la opción "K-medias".

K-medias

1 - Acuerdo de uso

Una vez seleccionado el método a utilizar se desplegará el menú de estratificación multivariada que se divide en tres secciones, que se describirán paso a paso. En la primera de ellas, se da una breve descripción del método que se usará para estratificar y se pide al usuario leer y aceptar las condiciones de uso de la información.

Paso 1 - Acuerdo de uso

Nota: Es importante aceptar las condiciones de uso de la información, de lo contrario, el asistente no permitirá continuar con el procedimiento.

2 - Modelo

En esta sección, el usuario configurará las opciones que requiera para realizar la estratificación y seleccionará las variables a incluir en el modelo.

Paso 2 - Modelo

Opciones del modelo

En este apartado, el usuario especificará el número de estratos en los que quiere clasificar las observaciones, así como el número de iteraciones máximas a realizarse. Para este ejemplo, se formarán cinco estratos a partir de las entidades federativas y se tendrá un máximo de diez iteraciones.

Opciones del modelo

Selección de variables

Una vez definidas las opciones del modelo, se seleccionan las variables a incluir. Para este ejemplo se consideran tres variables:

  • Viviendas particulares habitadas con piso de tierra
  • Viviendas particulares habitadas que no disponen de luz eléctrica, agua entubada ni drenaje
  • Viviendas particulares habitadas que no disponen de refrigerador ni lavadora
Selección de indicadores

Selección temática

El usuario puede seleccionar las variables a incluir en su análisis mediante la opción de índice temático que despliega todas las variables disponibles agrupadas de acuerdo a la temática censal.

Selección de indicadores (Índice temático)

Selección dinámica

Las variables seleccionadas también pueden ingresarse al modelo mediante la opción selección dinámica en la que el usuario teclea el nombre de la variable que desea incluir.

Selección de indicadores (Dinámica)

3 - Opciones de salida

En esta sección el usuario especificará los elementos que se incluirán en la salida del modelo y pulsará el botón "Generar" para ver los resultados del modelo de estratificación planteado.

Paso 3 - Opciones de salida

Resultados

Los resultados se presentan en cinco pestañas que deben analizarse cuidadosamente antes de ser utilizados.

Resultados

Resumen de resultados

La primera pestaña corresponde al resumen de resultados, el cual cuenta con diferentes elementos que se describen a continuación.

En este apartado, se presentan los principales resultados de la estratificación multivariada por el método de K-medias. Adicionalmente se proporcionan al usuario los resultados de un análisis de componentes principales como un auxiliar para la exploración de los datos.

Resumen de resultados

En este caso observamos que la primer componente principal explica el 85.85% de la varianza de los datos.

Resumen del modelo

Se muestra un resumen del modelo considerado para la estratificación, en este caso se tienen 32 observaciones correspondientes a las 32 entidades federativas y la estratificación se realiza considerando las tres variables seleccionadas para este ejemplo.

Resumen de resultados

Desviación estándar

Las componentes principales se construyen de manera que la primera componente sea la que explique el mayor porcentaje de varianza, o en otras palabras esta componente será la de mayor variabilidad. Para este modelo, la primera componente explica un porcentaje importante de varianza, lo que se ve reflejado también en la diferencia de la desviación estándar de ésta comparada con las siguientes dos componentes.

En este caso la desviación estándar de la primera componente es 2.68 veces más grande que la desviación estándar de la segunda componente principal.

Resumen de resultados

Importancia de las componentes

El apartado de importancia de las componentes principales presenta las estadísticas de resumen para las componentes principales.

Resumen de resultados

K-medias

Finalmente se presentan las estadísticas asociadas a la estratificación por el método de K-medias, tales como los centroides para cada estrato, las diferentes sumas de cuadrados del error y las frecuencias de casos en cada estrato. Estas estadísticas permiten evaluar el comportamiento de las variables en cada estrato, así como el grado de homogeneidad de éstos últimos. Para este ejemplo, observamos que los estratos cuatro y tres son aquellos que agrupan a las entidades con mayores carencias, sin embargo el estrato cuatro consta de sólo una entidad.

Resumen de resultados

Gráfica de centroides

Todas las gráficas que se presentan, tienen la opción de ser descargadas en formato PDF mediante el vínculo situado en la parte inferior. La gráfica de centroides del método de K-medias, permite observar el comportamiento de las variables dentro de cada estrato.

Gráfica de centroides

Nota: Es importante señalar que el número de estrato no necesariamente está relacionado con el comportamiento de las variables, sino que solamente es un indicativo de la agrupación de casos.

Gráfica de dendograma

El dendograma permite observar gráficamente la formación de los estratos y los elementos contenidos en cada unos de ellos. Por medio de esta gráfica, se puede determinar si el número de estratos elegido es el más adecuado y además, permite visualizar la distancia entre cada uno de ellos. En este ejemplo, se observa que el estrato con mayor número de elementos pudiera reestratificarse en tres o cuatro estratos, de acuerdo a las necesidades del usuario.

Dendrograma

Histograma

Esta gráfica presenta la frecuencia de casos en cada estrato. Una frecuencia muy baja en algún estrato podría indicar la presencia de observaciones atípicas. En el ejemplo se observan dos estratos con uno y dos elementos respectivamente, y por el contrario un estrato con veinte elementos. Esto sugiere realizar una estratificación ignorando las observaciones atípicas, o bien analizar el estrato con más elementos de forma independiente.

Histograma

Biplot

Esta gráfica permite identificar que tan distantes se encuentran las observaciones en el plano de las dos primeras componentes principales. Para el ejemplo que se presenta, entre más a la derecha se encuentre una observación, mayores carencias tendrá, es decir los valores de los indicadores considerados serán más grandes. Las observaciones se identifican en la gráfica por su clave geográfica.

Biplot

Observaciones

En este caso, observamos que las entidades más alejadas del resto son Veracruz (30), Chihuahua (08) y Estado de México (15).

Biplot

Variables

Con el gráfico Biplot, se observa también por la magnitud de las flechas que las tres variables incluidas en el modelo contribuyen de manera similar al modelo. El ángulo entre estos vectores representa la correlación entre las variables, un ángulo muy pequeño entre dos variables indicaría una correlación muy importante y se consideraría la eliminación de una de ellas.

Biplot

Mapa temático

Una vez que el usuario haya analizado los resultados de la estratificación multivariada y considere que el modelo es adecuado, se pulsa el botón "Cerrar y ver mapa" para visualizar el mapa temático producto de la estratificación.

Mapa temático

Nota: La inclusión de variables con poca frecuencia en modelos de estratificación a nivel de Ageb o manzana, puede ocasionar la inhabilitación de gran parte de las áreas geográficas debido a los criterios de confidencialidad.