South American Research Journal, 3(1), 67-83
https://sa-rj.net/index.php/sarj/article/view/39
ISSN 2806-5638
Las principales dificultades que surgen del postulado de Ba-
yes aparecen desde el punto de vista de la teoría frecuencial o
frecuentista de la probabilidad, que requeriría que los estados
correspondientes a los diversos B se distribuyeran con igual fre-
cuencia en alguna población de la que haya emanado el B real,
si debe aplicarse el postulado de Bayes. A algunos estadísticos,
aunque no a todos, esto les ha parecido pedir demasiado del uni-
verso. Sin embargo, si adoptamos el punto de vista “lógico” de
la probabilidad, es razonable considerar que las probabilidades
a priori son iguales cuando no se sabe nada en contrario. Asi-
mismo, para los seguidores de la escuela subjetiva, todo lo que
se requiere es que no se debe privilegiar ninguna hipótesis sobre
cualquier otra al contemplar una serie de apuestas. Así, la ma-
yoría de los que ven la probabilidad como un grado de creencia
aceptan el postulado de Bayes, al igual que muchos frecuentistas
lo rechazan explícitamente.
Es de notar particularmente que esto no es lo mismo que elegir
la hipótesis con la mayor probabilidad. Algunos defensores del
principio de Máxima Verosimilitud niegan explícitamente cual-
quier significado a expresiones como “la probabilidad de una hi-
pótesis”. Veremos más adelante que en la práctica las diferencias
entre los resultados obtenidos con Máxima Verosimilitud y el
postulado de Bayes no son tan grandes como cabría esperar. Hay,
sin embargo, una importante diferencia conceptual involucrada.
De hecho, hay un cambio de énfasis en la forma en que con-
sideramos la función de verosimilitud, reflejada en que la escri-
bimos con una L en lugar de una P. La función de probabilidad
ordinaria da la probabilidad de A sobre los datos B y H; A
r
varía, B y H están dados. Desde el punto de vista de la vero-
r
similitud, consideramos varios valores de B para A observado
r
y H dado; B varía, A y H están dados. Es esta variación de la
r
función para diferentes valores de los B lo que tenemos en mente
J. L. Savage (1954, 1961) defiende el uso puramente subjetivo
de las distribuciones a priori de Bayes. Para una exposición y
discusión penetrante de esos puntos de vista, ver Savage (1962).
Las distribuciones a priori que reflejan la ausencia de infor-
mación a priori se conocen como distribuciones a priori vagas o
no informativas. Una dificultad que surge en el caso continuo es
que tales a priori pueden ser impropias. Cuando la información
a priori está disponible, podemos utilizar a priori informativas.
Todavía hay tanto desacuerdo sobre este tema que uno no pue-
de presentar ningún conjunto de puntos de vista como ortodoxo.
Sin embargo, una cosa está clara: cualquiera que rechace el pos-
tulado de Bayes debe poner algo en su lugar. El problema que
Bayes intentó resolver es sumamente importante en la inferen-
cia científica y apenas parece posible tener ningún pensamiento
científico sin alguna solución, por muy intuitiva y empírica que
sea. Nos vemos constantemente obligados a evaluar el grado de
credibilidad que se concede a las hipótesis sobre dados datos; la
lucha por la existencia, en frase de Thiele (1903), nos obliga a
consultar los oráculos. Pero, añadió, los oráculos no nos eximen
del pensamiento y de la responsabilidad.
al hablar de verosimilitud.
Supongamos (como suele ser el caso en el trabajo estadístico)
que las hipótesis que nos ocupan afirman algo sobre el valor nu-
mérico de un parámetro θ. Por ejemplo, las hipótesis podrían ser
B ≡ θ < 0, B ≡ θ ≥ 0, en cuyo caso hay dos alternativas. O
1
2
podríamos tener B ≡ θ = 1, B ≡ θ = 2, etc., en cuyo caso
1
2
hay una infinidad denumerable de hipótesis.
Si ahora θ puede tener solo valores discretos, podemos, frente
a un evento observado A, requerir estimar θ, o preguntar cuál es
el “mejor” valor de θ para tomar, dada la evidencia A. El mé-
todo de Bayes sería que en (3) deberíamos buscar que B haga
r
de P (B |A, H ) un máximo. Si no sabemos nada de las pro-
r
babilidades a priori P (B |H ), deberíamos, de acuerdo con el
r
postulado de Bayes, suponer que todas esas probabilidades son
iguales. Entonces simplemente tenemos que encontrar el B que
r
maximiza L (A |B , H ). En otras palabras, el postulado de Ba-
r
yes y el principio de Máxima Verosimilitud dan como resultado
la misma respuesta numérica.
4
.1. Ejemplo
Consideremos tomar una muestra con reemplazo de una urna
4
. Máxima verosimilitud
que se sabe que contiene N bolitas, un número desconocido R
de las cuales son rojas. Supondremos que se sabe que R es uno
de los números enteros R1, ..., Rk; este conjunto puede corres-
ponder a todos los números enteros 0 ≤ Rj ≤ N.
Se han propuesto varios sustitutos del postulado de Bayes.
Algunos de ellos se plantean como soluciones a problemas es-
pecíficos; tales son los principios de Mínimos Cuadrados y Chi-
cuadrado Mínimo. Hay un principio, sin embargo, de aplicación
general, el de Máxima Verosimilitud.
Volviendo a (3) podemos escribir el teorema de Bayes en la
forma
Si hacemos n selecciones, la probabilidad de r bolitas rojas
viene dada por la fórmula binomial
ꢀ
ꢁ
n
r
r
n−r
,
p (r |n, R, N ) =
π (1 − π)
r = 0, 1, . . . , n,
P (Br |A, H ) ∝ P (Br |H ) L (A |Br, H ) ,
(6)
donde R = πN. Una vez realizado el experimento, la verosimi-
litud de R, dado r = t digamos, es
donde ahora escribimos L (A |Br, H ) para la verosimilitud. El
principio de Máxima Verosimilitud establece que, cuando nos
enfrentamos a una elección de hipótesis Br, elegimos aquella
ꢀ
ꢁ
t
n−t
,
n R (N − R)
L (R |n, t, N ) =
(7)
n
N
t
(
si la hay) que maximiza L. En otras palabras, debemos elegir
la hipótesis que da la mayor probabilidad al evento observado.
Mientras que el teorema de Bayes impone la maximización de la
probabilidad conjunta de Br y A, la Máxima Verosimilitud exige
la maximización de la probabilidad condicional de A dado Br.
para R = R1, . . . , Rk. La probabilidad puede evaluarse para ca-
da Rj a su vez, y el valor de Rj que da la L más grande es la es-
timación por Máxima Verosimilitud. Claramente, multiplicar (7)
por una probabilidad a priori constante no afecta el resultado.■
https://doi.org/10.5281/zenodo.8205883
70