Análisis clásico y bayesiano en la distribución beta rectangular

CLASSICAL AND BAYESIAN ANALYSIS IN THE RECTANGULAR BETA DISTRIBUTION

Luis Humberto Chia Ramírez

https://orcid.org/0000-0002-5317-3656

Correo: luischia.r@gmail.com lchia@pucp.pe

RESUMEN

En el presente trabajo se aborda el problema de trabajar con datos expresados en proporciones que contengan valores extremos. El objetivo general del estudio fue estudiar las propiedades, estimar y aplicar a datos reales el modelo de distribución Beta Rectangular, que ha sido construido específicamente para llevar a cabo el análisis estadístico de datos expresados en proporciones que contengan valores extremos.  El estudio se llevó a cabo desde el punto de vista clásico y bayesiano. Para la implementación de la inferencia Bayesiana se consideraron simulaciones de Montecarlo de Cadenas de Markov (MCMC). A fin de evaluar la robustez del modelo de distribución Beta Rectangular, se comparó con el modelo de distribución Beta tanto por inferencia clásica como por inferencia bayesiana, y se llevó a cabo estudios de simulación bajo diferentes escenarios generados por variaciones en el valor de los parámetros de la distribución. Los estudios de simulación demostraron, que el modelo de distribución Beta Rectangular es más robusto que el modelo de distribución Beta. En el caso complementario, es decir cuando los datos no incluyen valores extremos, se presenta una alternancia entre los modelos Beta Rectangular y Beta en relación a cuál de ellos es el que mejor se ajusta a los datos. Se concluye que el modelo de distribución Beta Rectangular presenta propiedades adecuadas para trabajar con conjuntos de datos expresados en proporciones, restringidos al intervalo [0, 1] de la recta real, y que presentan valores extremos. Cuando esta situación se da, el modelo de distribución Beta Rectangular tiene un mejor ajuste a los datos que el modelo de distribución Beta.

Palabras Claves: Análisis clásico bayesiano; Modelo de distribución beta rectangular; valores extremos; simulaciones de Montecarlo.

ABASTRAC

The problem of working with data expressed in proportions containing extreme values is addressed. The general objective of the study was to study the properties, estimate and apply to real data the Beta Rectangular distribution model, which has been specifically constructed to carry out the statistical analysis of data expressed in proportions containing extreme values.  The study was carried out from the classical and Bayesian point of view. For the implementation of Bayesian inference, Markov Chain Monte Carlo (MCMC) simulations were considered. In order to evaluate the robustness of the Rectangular Beta distribution model, it was compared with the Beta distribution model by both classical and Bayesian inference, and simulation studies were carried out under different scenarios generated by variations in the value of the distribution parameters. The simulation studies showed that the Rectangular Beta distribution model is more robust than the Beta distribution model. In the complementary case, i.e. when the data do not include extreme values, there is an alternation between the Beta Rectangular and Beta models in relation to which of them is the best fit to the data. It is concluded that the Beta Rectangular distribution model presents adequate properties to work with data sets expressed in proportions, restricted to the interval [0, 1] of the real line, and that present extreme values. When this situation occurs, the Beta Rectangular distribution model has a better fit to the data than the Beta distribution model.

 

Keywords: Classical Bayesian analysis; Rectangular Beta distribution model; extreme values; Monte Carlo simulations.

 

INTRODUCCIÓN

Al realizar procesos de investigación algunos expertos usan modelos para analizar variables cuya respuesta es restringida al intervalo (0,1), tales como la aprobación presidencial, la tasa de analfabetismo, la tasa de migración, PEA ocupada según ocupación o actividad económica, la proporción de accidentes de tránsito, la tasa de fatalidad en accidentes de tránsito, etc.

Para estos casos, tal como señala Ferrari y Cribari-Neto (2004) los modelos de regresión lineal no son apropiados ya que los valores estimados de la variable respuesta pueden exceder los límites inferior y superior del rango asignado.

Una de las alternativas para el modelamiento de este tipo de variables es la distribución Beta, la cual es bastante flexible, dado que su función de densidad puede tomar diferentes formas dependiendo del valor de los parámetros α y β.

Aún cuando la distribución esta es bastante flexible para modelar proporciones, Hahn (2008) nota que esta distribución no considera adecuadamente eventos que se encuentren en los extremos de la distribución. Esta es una característica limitante, pues en el mundo real necesitamos de distribuciones que sean capaces de incluir datos que se encuentren muy alejados en la muestra, tal es el caso de los datos de valor extremo. Es por ello que este autor propone usar una mixtura de distribuciones, ya que ello aumenta la robustez para la inferencia, y al mismo tiempo permite tener mayor flexibilidad y un mejor ajuste a los datos. Específicamente se propuso mezclar la distribución uniforme con la distribución Beta, añadiéndole un parámetro de mixtura θ, siendo 0 ≤ θ ≤ 1.

Ferrari y Cribari-Neto (2004) señalan que normalmente es más útil modelar a la media de la variable respuesta, sin embargo, Bayes, Bazán y García (2012) notan que la media de la distribución Beta Rectangular dada es una función de la mixtura de parámetros θ y µ, por lo que proponen una nueva parametrización de la distribución Beta Rectangular, que es sobre la cual se trabajará en este estudio.

La estimación de los parámetros se llevará a cabo a través de dos enfoques, por un lado, se desarrolla la inferencia estadística clásica para calcular los estimadores de Máxima Verosimilitud para los parámetros de la distribución Beta Rectangular reparametrizada. Para ello se hace uso del Algoritmo-EM (Expectation-Maximization) propuesto por Dempster, Laird y Rubin (1977), bajo la parametrización propuesta por Hahn (2008) lo cual es posible gracias a la propiedad de invarianza del Estimador de Máxima Verosimilitud. Para este caso los programas son desarrollados integramente sobre el software estadístico R (R Development Core Team (2011)).

Se estiman también los parámetros de la distribución Beta Rectangular reparametrizada bajo el enfoque bayesiano empleando simulaciones de Montecarlo de Cadenas de Markov. Para ello se hace uso de distribuciones a priori no informativas. Los programas que realizan esta tarea son desarrollados en lenguaje de los softwares estadísticos WinBUGS (Spiegelhalter, Thomas, Best y Lunn (2004)) y Open- BUGS (Sturtz, Ligges y Gelman (2005)), empleando la interface de los paquetes de BRugs y R2WinBUGS del software estadístico R para que los programas puedan correr sobre esta plataforma computacional.

Los métodos bayesianos introducen una nueva interpretación del concepto de probabilidad como una medida condicional de la incertidumbre asociada a la ocurrencia de un evento, dada la información disponible y las creencias previas. Congdon (2003) señala que en la inferencia clásica los datos correspondientes a un conjunto. Y  son  tomados  como  aleatorios, mientras  que  los  parámetros  poblacionales  θ,  de  dimensión  p  son  tomados  como  fijos.  En el análisis bayesiano, en cambio, los parámetros siguen una distribución de probabilidad (sin haber considerado previamente el conjunto de datos disponible de Y), y esa información es resumida en una distribución a priori p(θ).  En muchas situaciones puede ser beneficioso incluir en la densidad a priori la evidencia acumulada disponible acerca de un parámetro, proveniente de estudios científicos previos.  Un ejemplo de esa información previa sería la proveniente de un ratio relativo al efecto de fumar más de cinco cigarrillos diariamente en el periodo de embarazo sobre el hecho que el peso del niño al nacer sea menor a 2.5 kg. Señala además que esta información puede ser obtenida de manera formal o informal a partir de estudios existentes.

Para  entender  mejor  la  diferencia  entre  la  inferencia  clásica  y  la  bayesiana,  suponga- mos que tenemos un conjunto de n observaciones Yn = y1, ..., yn. Siguiendo a Tomohiro (2010), para  resumir  la  información  podemos  calcular  fácilmente  la  media,  varianza,  curtosis,  asimetría;  sin  embargo  puede  ser  dificultoso  obtener  información  más  precisa  sobre  la estructura de un sistema o proceso proveniente de un número finito de datos observados. Por lo tanto, los investigadores usan familias de distribuciones paramétricas con densidades del tipo   f (y|θ); θ Θ Rp} para explorar la naturaleza de la estructura de los datos y a partir de ello predecir el comportamiento futuro de la misma. Es decir, uno deriva conclusiones estadísticas basados en el modelo probabilístico asumido. La función de densidad predictiva f (z|θ) para observaciones futuras de z puede ser construida reemplazando simplemente el vector de parámetros deconocidos por el estimado de máxima verosimilitud θEMV.

En el contexto bayesiano, en contraste a la aproximación clásica, el parámetro desconocido θ es tratado como una variable aleatoria; por lo tanto, para describir el conocimiento previo, la opinión experta la intuición o las creencias acerca del valor de θ, se prepara una distribución de probabilidad a priori p(θ) sobre el espacio paramétrico de Θ.

La medida de probabilidad descrita anteriormente es una probabilidad bayesiana. Por lo tanto, se hace evidente que en el análisis bayesiano el teorema de Bayes es fundamental.  Si denotamos dos eventos como A y B y P (A|B) a la probabilidad de ocurrencia del evento A luego de ocurrido el evento B, bajo la condición que la probabilidad de ocurrencia del evento B es positiva, es decir P (B) >, la probabilidad condicional del evento A dado B es dada por:

P (A B) = P (A ∩ B)

P (B) (1.1)

Transformando la ecuación obtenemos la regla del producto de probabilidades:

P (A ∩ B) = P (A|B)P (B)

 

Siguiendo a Tomohiro (2010) el teorema de Bayes puede ser derivado a partir de la Ley de Probabilidad Total. Si permitimos que A1, A2, ..., Am sean eventos disjuntos de modo que P (Ai ∩ Aj) = 0, i =/   j  y P (A1 ... Am)=1 sea el evento seguro Ω, es decir P (Ω) = 1, luego tenemos que:

 

m

P (B) = P (B|Ω) =       P (B|Aj)P (Aj)

j=1

Por lo tanto, el evento seguro es dividido en un evento disjunto de m piezas, y la proba- bilidad condicional de B dado cada evento dividido Am es añadido de forma conjunta. Bajo este marco, la probabilidad condicional del evento Ak dado el evento B, donde P (B) > 0, viene dada por:

           

            La ecuación anterior constituye el teorema de Bayes.  Bajo este contexto permitamos ahora que el parámetro θ tome sólo m valores {θ1, ..., θm}, con probabilidades   p(θ1), ..., p(θm)}.

Permitamos además que el evento Ak sea θ de modo que   = θk y el evento B  sea  Xn,  es decir  el  término  observado  en  el  teorema  de  Bayes  de  la  ecuación  (1.2),  se  sigue  entonces  a partir  de  este  teorema  que  toda  la  información  disponible  acerca  del  valor  θ  está  contenido en la distribución a  posteriori  correspondiente, es decir:

           

Donde f (Xn|θ) es la función de verosimilitud. Si el parámetro θ es una variable aleatoria continua, tendríamos:

La ecuación (1.3) muestra que la influencia relativa del conocimiento previo y de los datos sobre la actualización de las creencias depende de cuánto peso se le de a la distribución a priori, lo que estará a su vez relacionado con la capacidad informativa de la misma, y con la importancia de los datos. Por ejemplo, un conjunto de datos grande puede tender a tener una influencia predominante sobre la actualización de las creencias a pesar que la priori sea informativa.  En contraste, si la muestra es pequeña y esta es combinada con una priori informativa, entonces la distribución a priori tendrá una mayor influencia relativa sobre la actualización de las creencias. Este es el caso de muchos problemas reales, en los que la información disponible es sumamente limitada, por lo que emplear el método bayesiano puede tener una gran ventaja sobre el método clásico.

Integración de Monte Carlo

Suponiendo que se necesita evaluar la integral de una función f (θ) con respecto a una distribución p(θ), siguiendo a Mira (2005):

la autora señala que por lo general la distribución de interés es la posteriori del parámetro en estudio, mientras que la función puede ser la identidad (permitiendo recuperar la distribución posterior), la función indicadora o cualquier otra función integrable del parámetro de interés.  Si se trabaja con una muestra aleatoria de observaciones (θ1, ..., θn) identica e independiemente disrtibuidas obtenidas de p, entonces podemos recurrir a la simulación de Monte Carlo y estimar µp (f ) a partir de:

Asumiendo que f tiene varianza finita, la Ley de los Grandes Números garantiza que µn (f ) es  un  estimador asintóticamente  insesgado  de µp(f )  y  el Teorema del  Limite Central  garantiza  que  la  distribución  límite  del  estimador  de  Monte  Carlo,  adecuadamente  normalizado n (µn(f ) − µp(f )), es Normal con varianza dada por σ(f ). Por lo tanto, sin importar la dimensión de θ, el término de error es de orden n

Cadenas de Markov

Tal como define Mira (2005), una cadena de Markov es un proceso estocástico {X0, X1, ...} que evoluciona en el tiempo con la propiedad que el futuro el independiente del pasado dado el presente, es decir:

para cualquier A en el espacio E. Se identifica una Cadena de Markov con el Kernel de transición P definido por:

Mientras que el kernel de transición está dado por

Al igual que la autora, denotamos como Px y como Pp a las probabilidades de que una Cadena de Markov inicie con X0 = x o con una distribución inicial X0 p respectivamente. Una cadena de Markov tiene distribución estacionaria p si:

No todas las cadenas de Markov tienen distribuciones estacionarias y aun cuando exista una distribución estacionaria esta puede no ser única.  Justamente el principio básico tras las simulaciones MCMC es que las Cadenas de Markov tengan convergencia a una única distribución y por lo tanto pueda ser usada para estimar expectativas con respecto a esa distribución. Mira (2005) señala cuáles son las propiedades que permiten identificar Cadenas de Markov que tengan una única distribución estacionaria, la misma que a su vez es la distribución límite del proceso. Estas propiedades son indicadas en el apartado siguiente.

Propiedades de las Cadenas de Markov

Se dice que una Cadena de Markov es φ − irreducible para una distribución de probabilidad φ sobre E, si φ(A) > 0, lo cual implica:

Px {tiempo del primer retorno a A < ∞} > 0

Entonces, una cadena es irreducible si esta es φ − irreducible para algún φ.  En otras palabras, una cadena irreducible tiene una probabilidad distinta de cero de pasar de una posición determinada en el espacio en el espacio de estados a cualquier otra posición, en un número finito de pasos.  Ello garantiza que todas las porciones importantes del espacio de estados puedan ser visitadas. De otro lado, la recurrencia garantiza que todos los subcon- juntos de interés del espacio de estados puedan ser visitados un número infinito de veces, al menos desde casi todos los puntos de inicio. Si una cadena de Markov es irreductible y tiene una distribución estacionaria apropiada p, entonces esta debe ser positiva recurrente y p es también la única distribución estacionaria.  Una condición suficiente para que una Cadena de Markov sea irreducible con respecto a la distribución φ  es  que  el  kernel  de  transición  de n − pasos tenga una densidad positiva con respecto a φ para algu´n n ≥ 1.

Dada una Cadena de Markov irreducible con distribución estacionaria p y una función en los reales tal que ∫ |f (x)|p(x)dx < ∞, se tiene una Ley fuerte de los grandes nu´meros que es:

En otras palabras, el tiempo observado y esperado relacionado a un conjunto A converge a p(A). Adicionalmente, para obtener resultados más fuertes, se debe descartar el comportamiento periódico o cíclico.

Se dice que una Cadena de Markov es no-periódica si el máximo común divisor del número de pasos que le toma a la cadena al punto inicial, sin importar cual sea este, es uno. Para descartar conjuntos nulos de puntos de partida iniciales en los que la Ley de los grandes números puede fallar, se deben considerar Cadenas de Markov Harris-recurrentes, es decir cadenas φ − irreductibles, donde φ sea la  distribución  irreductible  máxima,  y  por  lo  tanto, para cada A E con φ(A) > 0, tenemos:

Px {Xn Ainfinitamente} = 1

para todo x E. Una Cadena de Markov es ergódica si esta es irreductiblre, no-periódica y Harris-recurrente positiva. Sin embargo, la autora señala que en la mayoría de aplicaciones MCMC la ergodicidad es de poca importancia dado que típicamente los investigadores están interesados en resultados concernientes a trayectorias muestrales promedio.

Finalmente, las condiciones de ergodicidad uniforme y geométricas están relacionadas a la tasa a la cual la Cadena de Markov converge a la estacionariedad. En particular, una cadena con distribución estacionaria p es geométricamente ergódica si existe una función con valores reales extendidos a los no negativos M, tal que M (x)p(x)dx < ∞, y una constante positiva ρ < 1, tal que:

Si además M es constante finita y positiva, entonces la cadena es uniformemente ergódica.

METODOLOGÍA

Se hace una revisión exhaustiva de la literatura en relación a los modelos propuestos con distribución para proporciones, y posteriormente se implementa la inferencia estadística desde el punto de vista clásico y bayesiano del modelo de distribución Beta Rectangular. La inferencia clásica se lleva a cabo mediante el método de Máxima Verosimilitud, y dado que la estimación de los parámetros de la distribución Beta Rectangular de forma analítica se torna complicada se optar por emplear un método numérico iterativo, especificamente el algoritmo Expectation Maximitation generalmente conocido como Algoritmo-EM. Para la implementación de la inferencia Bayesiana se consideran simlaciones de Montecarlo de Cadenas de Markov (MCMC). A fin de evaluar la robustez del modelo de distribución Beta Rectangular, este es comparado con el modelo de distribución Beta tanto por inferencia clásica como por inferencia bayesiana, y se llevan a cabo estudios de simulación bajo diferentes escenarios generados por variaciones en el valor de los parámetros de la distribución

Objetivos de la investigación

 

General

Estudiar las propiedades, estimar y aplicar a datos reales el modelo de distribución Beta Rectangular desde el punto de vista clásico y bayesiano.

 

Específicos:

Revisar la literatura en relación a los modelos propuestos para proporciones.

Estudiar e implementar la inferencia estadística del modelo de Beta Rectangular mediante el método de áaxima Verosimilitud y mediante la inferencia bayesiana.

Estudiar e implementar la estimación del modelo Beta Rectangular desde el punto de vista clásico y bayesiano.

Implementar métodos de inferencia Bayesiana considerando simulación de Montecarlo de Cadenas de Markov (MCMC).

Implementar simulaciones del modelo de distribución Beta Rectangular sobre distintos escenarios.

Implementar el modelo Beta Rectangular a datos reales considerando que este no tiene variable respuesta.

 

RESULTADOS

Como parte de la puesta en práctica la teoría estudiada se presentan los resultados de la misma en un estudio de caso:

Niveles de pobreza en los distritos del departamento de Ica

Descripción del caso

Uno de los mayores problemas que enfrentan los países de ingresos medios o bajos es la pobreza. La medición de la pobreza monetaria se calcula comparando los gastos de los hogares con la línea de pobreza. Dicha línea es aquella que permite adquirir una Canasta Básica de

Consumo suficiente para satisfacer requerimientos nutricionales y otras necesidades básicas de los hogares. Se define como pobre a la población que vive en hogares cuyo gasto, por persona, es inferior al monto establecido en la línea de pobreza, que para el año 2011 se estableció en 272 nuevos soles, tal como se menciona en el documento técnico “Mejoras Metodológicas para la Medición de la Pobreza” publicado por el Instituto Nacional de Estadística e Informática - INEI (2011a).

En el documento “Perú: Perfil de la Pobreza por departamentos, 2001-2010” INEI (2011b) se señala que la pobreza es medida de forma monetaria porque no considera las dimensiones no monetarias de la misma, como desnutrición, necesidades básicas insatisfechas, exclusión social, capacidades, entre otras.

La medición de la pobreza se refiere a una valoración absoluta pues esta se mide respecto a un valor de la línea que no depende de la distribuci´on relativa del bienestar de los hogares.

Para esta medición, señala el documento, se utilizan dos tipos de líneas, a saber, la línea de Pobreza Extrema y la línea de Pobreza Total. La Línea de Pobreza Extrema es un valor monetario necesario para la adquisición de una canasta de alimentos capaz de satisfacer un mínimo de necesidades nutricionales de las personas. La Línea de Pobreza Total es el valor de la línea de Pobreza Extrema más el valor monetario necesario para satisfacer un conjunto de necesidades no alimentarias consideradas esenciales (vestido y calzado, alquiler de la vivienda, combustible, muebles y enseres, cuidado de la salud, transportes y comunicaciones, esparcimiento, educación y cultura y otros gastos). En este sentido, se puede considerar que los pobres no extremos se encuentran en el rango que comprende la diferencia entre el valor de la línea de pobreza total y la línea de la pobreza extrema.

Si se mide en el eje de abscisas a la población y en el eje de ordenadas el Gasto per capita en nuevos soles, podría representarse gráficamente las clasificaciones de los niveles de pobreza.

Tal como se muestran en la figura1. Medición de la pobreza monetaria

Así una persona sumida en la pobreza extrema sería aquella cuya canasta básica de alimentos esté por debajo del umbral de los 143 nuevos soles mensuales. Los pobres no extremos serían aquellos cuya canasta alimentaria y no alimentaria, su canasta básica de consumo, fuera de menos de 272 nuevos soles, pero mayor a los 143 nuevos soles mensuales. En general los pobres extremos y no extremos serán aquellos cuya canasta básica de consumo esté por debajo de los 272 nuevos soles mensuales; y en complemento, aquellos que gocen de una canasta cuyo valor sea superior a los 272 nuevos soles serán considerado como no pobres.

La aplicación que se lleva a cabo en la presente sección consiste en la estimación de los parámetros de las distribuciones Beta y Beta Rectangular por los métodos clásico y bayesiano. Para ello se ha empleado datos del total de la pobreza en los distritos del departamento de Ica. Los datos fueron extraídos del anexo estadístico del libro electrónico “Mapa de Pobreza Provincial y Distrital 2009” publicado en la dirección electrónica http://www.inei.gob.pe/ biblioineipub/bancopub/Est/Lib0952/index.htm. Estos datos pueden ser apreciados en el anexo A.

Descripción de los datos

Se seleccionó para esta aplicación los datos de la población en situación de pobreza total en los distritos del departamento de Ica debido a la adecuación de este conjunto de observaciones a los requerimientos para el ajuste de los modelos de distribución Beta y Beta Rectangular. Los datos de pobreza tienen un rango que pertenece al intervalo (0,1), es decir, está medido en proporciones. Al no ser la pobreza un valor homogéneo a lo largo de toda la extensión del país, y tampoco dentro del territorio de un departamento, se pueden presentar situaciones en los que los datos registrados contengan valores extremos, caso en el que nos encontramos si analizamos los niveles de pobreza en los distritos del departamento de Ica.

En la figura 2 se muestra el histograma de los datos registrados de la población en situación de pobreza. Se puede apreciar que esta variable presenta valores que podrían ser considerados atípicos o extremos. Hay distritos que presentan una proporción de la poblacion pobre cercana al 80 %, o de forma complementaria distritos en el departamento de Ica que cuentan con población no pobre de sólo 20 %.

Figura 2: Panel (a): histograma de la población en situación de pobreza en los distritos del departamento de Ica. Panel (b): Histograma de la población en situación de no pobreza en los distritos del departamento de Ica.

El cuadro 1 muestra las estadísticas resumen  de  las  variable  “población  en  situación  de pobreza” en los departamentos del distrito de Ica. Como puede apreciarse, las variables est´an medidas en porcentajes, por ello, para tenerlas en proporciones son divididas entre 100. Se tiene que el distrito con menor pobreza tiene un 5.1 % de pobres y corresponde espec´ıficamente al distrito de Tambo de Mora; el distrito con mayor cantidad de población pobre es el distrito de Chavín con 79.1 % de la población en esta situación; la media de esta variable es de 18.1 %, mientras que la mediana es de 14.7 %; y el rango intercuantil va de 9.85 % a 19.05 %.

 

 

Resultados de la aplicación:  Estimación por máxima verosimilitud

En la presente sección se ajustan los modelos Beta y Beta Rectangular a un conjunto de datos reales, tal como han sido descritos en la sección anterior.

El modelo Beta a estimar sigue la distribución Beta Reparametrizada dada en la ecuación, es decir

Del mismo modo, el modelo Beta Rectangular a estimar sigue la distribución dada en la ecuación, es decir:

Los resultados de la aplicación mediante la estimación de máxima verosimilitud son presentados en la tabla 2. Como puede apreciarse el valor calculado para el Criterio de Información Bayesiano (BIC) es menor en el caso del modelo Beta Rectangular, por lo que este modelo sería escogido bajo este criterio.

Analizando los parámetros estimados observamos que en el caso del modelo Beta Rectangular este presenta un valor para la media del modelo, µBR = 0,1363, menor a la reportada por el modelo Beta µBeta  =  0,1908.  De otro lado, se muestra un mayor valor del parámetro de precisión en el modelo Beta Rectangular φBR = 29,3309 frente al estimado mediante el modelo Beta φ = 8,3527.

Analizando el histograma de los datos podemos observar claramente que la densidadestimada por el modelo Beta Rectangular (linea discontinua) ajusta mucho mejor que la estimada por el modelo Beta (linea continua), tal como muestra la figura 3.

Podemos también observar en la figura 3 que la cola derecha de la densidad Beta no incluye los valores extremos cercanos al límite superior del rango de la distribución, es decir los valores que se encuentran cercanos a la unidad.  En oposición la densidad Beta  Rectangular al presentar una cola derecha más pesada que la distribución Beta, permite incluir los valores extremos,  por  lo  tanto  se  considera  que  esta  es  mejor  para  modelar  este  caso  específico  de datos cuyo rango se encuentra en el intervalo (0,1) y que además presenta valores extremos.

En relación a los criterios de selección, tanto el AIC como el BIC sugieren que se debe elegir el modelo de distribución Beta Rectangular.  Se debe escoger aquel modelo que tenga menor valor de AIC y BIC.

Figura 3: Población pobre en los distritos del departamento de Ica

Resultados de la aplicación:  Estimación por inferencia bayesiana

Se lleva a cabo el ajuste de los datos de la población pobre en los distritos del departamento de Ica mediante los modelos Beta y Beta Rectangular desde la perspectiva bayesiana. El modelo Beta a estimar sigue la distribución Beta Reparametrizada dada en la ecuación, es decir:

Con distribuciones a priori para µ y φ, es decir:

Del mismo modo, el modelo Beta Rectangular a estimar sigue la distribución dada en la ecuación:

y distribuciones a priori para µ, φ y θ:

En ambos casos los parámetros de la distribución Gamma son a = b = 0,01, tal como se realiza en el trabajo de Bayes, Bazan y García (2012). El cuadro 3 muestra los resultados de los parámetros estimados.

El modelo Beta Rectangular estima los parámetros µ = 0,1395, φ = 28,4082 y θ = 0,1691, mientras que el modelo Beta estima los parámetros µ = 0,1941 y φ = 8,2203. De este modo, si comparamos los modelos para los datos según las dos distribuciones, es decir y BR (µ = 0,1395, φ = 28,4082, θ = 0,1691) y y Beta (µ = 0,1941, φ = 8,2203), se encuentra que los criterios de selección en el cuadro 3 sugieren que se elija en todos los casos el modelo de distribución Beta Rectangular. Asimismo, se observa también que los parámetros estimados para el modelo Beta son muy similares ya sea que sean estimados por máxima verosimilitud o de forma bayesiana, y del mismo modo para el modelo Beta Rectangular, es decir ambas estimaciones guardan coherencia, pero con la ventaja del modelo Beta Rectangular de generar el parámetro de mixtura, en este caso θ Bayesiano = 0,1691, lo que permite incluir los valores extremos del conjunto de datos.

La figura 4 muestra, al igual que en el caso de la inferencia clasica, que la densidad Beta Rectangular evaluada en los parámetros estimados se ajusta mejor a los datos estudiados.

Ello confirma lo que se había sido ya anticipado por el valor de los criterios de información EAIC, EBIC y DIC, es decir que se debe escoger el modelo Beta Rectangular para la estimación de los parámetros de los datos.

Por lo tanto, mediante esta aplicación se ha podido ilustrar lo que ya se había explicado a lo largo de este trabajo de tesis, es decir la gran utilidad de contar con una distribución que permita modelar adecuadamente datos cuyo rango se encuentra en el intervalo (0,1) y que además toma valores extremos.

 

 

 

 

 

 

Figura 4: Población pobre en los departamentos de Ica

Del conjunto de datos mediante el modelo Beta la estimación podría haber estado sesgada respecto a las estimaciones efectuadas mediante el modelo Beta Rectangular, y mucho más aun si el proceso de estimación hubiera sido realizado mediante el método clásico en comparación con el método bayesiano.

En el gráfico 5 se muestran las últimas 1000 observaciones de las Cadenas de Markov simuladas para los parámetros µ y φ en el modelo Beta.  Como puede apreciarse claramente ambos parámetros han convergido a su valor estimado.

Del mismo modo, el gráfico 6 se muestran las últimas 1000 observaciones de las Cadenas de Markov simuladas para los parámetros µ, φ y θ en el modelo Beta Rectangular.  Al igual, que en el caso del modelo Beta, puede apreciarse que los tres parámetros han convergido a sus valores estimados.

Considerando estos resultados, se puede concluir que la estimación de los parámetros del modelo de distribución Beta Rectangular para este conjunto de datos específicos es superior a la estimación mediante el modelo Beta.

 

Figura 5: Cadenas de Markov para µ y φ

 

Figura 6: Cadenas de Markov para µ, φ y θ

 

 

 

 

 

CONCLUSIONES

Preliminarmente se puede apreciar que el modelo Beta Rectangular ajusta mejor cuando los datos presentan valores outlier como se puede observar en el estudio de simulación y en la aplicación.

Asimismo, podemos observar que mediante la estimación bayesiana se logra obtener en los casos estudiados un mejor ajuste de los datos, y por lo tanto una mejor estimación de los parámetros, en relación al ajuste y parámetros obtenidos mediante la inferencia clásica mediante el método de máxima verosimilitud.

Sugerencias para investigaciones futuras

Realizar estudios de simulación considerando otras distribuciones a priori para los parámetros.

Estudiar modelos de regresión considerando la distribución Beta Rectángular como el proceso generador de los datos.

Considerar nuevas aplicaciones del modelo a otro tipo de datos reales que también puedan ser expresados en proporciones.

 

REFERENCIAS

Bayes, C., Bazán, J. y García, C. (2012). A new regression model for proportions,

Bayesian Analysis

Congdon, P. (2003). Applied-Bayesian-Modelling, John Wiley & Sons.

Ferrari, S. y Cribari-Neto, F. (2004). Beta regression for modelling rates and

proportions, Journal of Applied Statistics 31: 799–815.

Hahn, E. (2008). Mixture densities for project managment activity times: A robust

approac to pert, European Journal of Operational Research 188: 450–459.

INEI (2011a). Mejoras metodológicas para la medici´on de la pobreza, Reporte técnico,

Instituto Nacional de Estadística e Informática, Perú.

Mira, A. (2005). Mcmc methods to estimate bayesian parametric models, Handbook of

Statistic 25: 415–436.

R Development Core Team (2011). R: A Language and Environment for Statistical

Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.

Spiegelhalter, D. J., Thomas, A., Best, N. G. y Lunn, D. (2004). WinBUGS User

Manual Version 1.4.1. http://www.mrc-bsu.cam.ac.uk/bugs.

Sturtz, S., Ligges, U. y Gelman, A. (2005). R2winbugs: A package for running

winBUGS from R, Journal of Statistical Software 12(3): 1–16. http://www.jstatsoft.org.

Tomohiro, A. (2010). Bayesian Model Selection and Statistical Modeling, CRC Press.