Presentación
El siguiente ejemplo permite conocer el procedimiento a seguir para realizar una estratificación multivariada por el método de K-medias con en el SCINCE 2010.
El ejemplo consiste en estratificar las entidades federativas del país de acuerdo a ciertas características de las viviendas y describir las salidas que arroja el sistema.
Selección del método
El primer paso consiste en seleccionar el método de estratificación que se utilizará, para esto, diríjase al apartado "Estratificación Multivariada" que se
encuentra en la barra de herramientas ubicada en la parte derecha de la pantalla y seleccione
la opción "K-medias".
1 - Acuerdo de uso
Una vez seleccionado el método a utilizar se desplegará el menú de estratificación multivariada que se divide en tres secciones, que se describirán paso a paso. En la primera de ellas, se da una breve descripción
del método que se usará para estratificar y se pide al usuario leer y aceptar las condiciones de uso de la información.
Nota: Es importante aceptar las condiciones de uso de la información, de lo
contrario, el asistente no permitirá continuar con el procedimiento.
2 - Modelo
En esta sección, el usuario configurará las opciones que requiera para realizar la estratificación y seleccionará las variables a incluir en el modelo.
Opciones del modelo
En este apartado, el usuario especificará el número de estratos en los que quiere clasificar las observaciones, así como el número de iteraciones máximas a realizarse. Para este ejemplo, se formarán cinco estratos a partir de las entidades federativas y se tendrá un máximo de diez iteraciones.
Selección de variables
Una vez definidas las opciones del modelo, se seleccionan las variables a incluir.
Para este ejemplo se consideran tres variables:
- Viviendas particulares habitadas con piso de tierra
- Viviendas particulares habitadas que no disponen de luz eléctrica, agua entubada ni drenaje
- Viviendas particulares habitadas que no disponen de refrigerador ni lavadora
Selección temática
El usuario puede seleccionar las variables a incluir en su análisis mediante la opción de índice temático que despliega
todas las variables disponibles agrupadas de acuerdo a la temática censal.
Selección dinámica
Las variables seleccionadas también pueden ingresarse al modelo mediante la opción selección dinámica
en la que el usuario teclea el nombre de la variable que desea incluir.
3 - Opciones de salida
En esta sección el usuario especificará los elementos que se incluirán en la salida del modelo y pulsará el botón "Generar" para ver los
resultados del modelo de estratificación planteado.
Resultados
Los resultados se presentan en cinco pestañas que deben analizarse cuidadosamente antes de ser utilizados.
Resumen de resultados
La primera pestaña corresponde al resumen de resultados, el cual cuenta con diferentes elementos que se describen a continuación.
En este apartado, se presentan los principales resultados de la estratificación multivariada por el método de K-medias. Adicionalmente se proporcionan al usuario los resultados de un análisis de componentes principales como un auxiliar para la exploración de los datos.
En este caso observamos que la primer componente principal explica el 85.85% de la varianza
de los datos.
Resumen del modelo
Se muestra un resumen del modelo considerado para la estratificación, en este caso
se tienen 32 observaciones correspondientes a las 32 entidades federativas y la estratificación se realiza
considerando las tres variables seleccionadas para este ejemplo.
Desviación estándar
Las componentes principales se construyen de manera que la primera componente sea la que explique el mayor porcentaje de varianza,
o en otras palabras esta componente será la de mayor variabilidad. Para este modelo, la primera componente explica un porcentaje
importante de varianza, lo que se ve reflejado también en la diferencia de la desviación estándar de ésta comparada con las siguientes
dos componentes.
En este caso la desviación estándar de la primera componente es 2.68 veces más grande que la desviación estándar
de la segunda componente principal.
Importancia de las componentes
El apartado de importancia de las componentes principales presenta las estadísticas de resumen para las componentes principales.
K-medias
Finalmente se presentan las estadísticas asociadas a la estratificación por el método de K-medias, tales como los centroides para cada estrato, las diferentes sumas de cuadrados del error y las frecuencias de casos en cada estrato. Estas estadísticas permiten evaluar el comportamiento de las variables en cada estrato, así como el grado de homogeneidad de éstos últimos. Para este ejemplo, observamos que los estratos cuatro y tres son aquellos que agrupan a las entidades con mayores carencias, sin embargo el estrato cuatro consta de sólo una entidad.
Gráfica de centroides
Todas las gráficas que se presentan, tienen la opción de ser descargadas en formato PDF
mediante el vínculo situado en la parte inferior. La gráfica de centroides del método de K-medias, permite observar el comportamiento de las variables dentro de cada estrato.
Nota: Es importante señalar que el número de estrato no necesariamente está relacionado con el comportamiento de las variables, sino que solamente es un indicativo de la agrupación de casos.
Gráfica de dendograma
El dendograma permite observar gráficamente la formación de los estratos y los elementos contenidos en cada unos de ellos. Por medio de esta gráfica, se puede determinar si el número de estratos elegido es el más adecuado y además, permite visualizar la distancia entre cada uno de ellos. En este ejemplo, se observa que el estrato con mayor número de elementos pudiera reestratificarse en tres o cuatro estratos, de acuerdo a las necesidades del usuario.
Histograma
Esta gráfica presenta la frecuencia de casos en cada estrato. Una frecuencia muy baja en
algún estrato podría indicar la presencia de observaciones atípicas. En el ejemplo se observan dos estratos con uno y dos elementos respectivamente, y por el contrario un estrato con veinte elementos. Esto sugiere realizar una estratificación ignorando las observaciones atípicas, o bien analizar el estrato con más elementos de forma independiente.
Biplot
Esta gráfica permite identificar que tan distantes se encuentran las observaciones en el
plano de las dos primeras componentes principales. Para el ejemplo que se presenta, entre
más a la derecha se encuentre una observación, mayores carencias tendrá, es decir los
valores de los indicadores considerados serán más grandes. Las observaciones se identifican
en la gráfica por su clave geográfica.
Observaciones
En este caso, observamos que las entidades más alejadas del resto
son Veracruz (30), Chihuahua (08) y Estado de México (15).
Variables
Con el gráfico Biplot, se observa también por la magnitud de las flechas que las tres variables incluidas en el modelo
contribuyen de manera similar al modelo. El ángulo entre estos vectores representa la correlación entre las variables,
un ángulo muy pequeño entre dos variables indicaría una correlación muy importante y se consideraría la eliminación de
una de ellas.
Mapa temático
Una vez que el usuario haya analizado los resultados de la estratificación multivariada y considere que el modelo es adecuado, se pulsa el botón "Cerrar y ver mapa" para visualizar el mapa temático producto de la estratificación.
Nota: La inclusión de variables con poca frecuencia en modelos de estratificación a nivel de Ageb o manzana, puede ocasionar la inhabilitación de gran parte de las áreas geográficas debido a los criterios de confidencialidad.