South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Palabras claves: Enfoque clásico, Enfoque frecuencial, En-  
foque basado en la verosimilitud, Enfoque fiducial, Enfoque Ba-  
yesiano objetivo, Enfoque Bayesiano subjetivo, Teoría de la de-  
cisión.  
Explorando la Reconciliación entre los  
Enfoques Frecuentista y Bayesiano en Es-  
tadística  
Abstract  
In statistics, frequentist statistics has often been considered  
the only way. However, since the 1950s, Bayesian statistics has  
been progressively gaining ground in academia. The purpose of  
the present study is to demonstrate the meeting points between  
these two apparently opposing currents. To this end, the authors  
review several topics, explaining what Bayes’ Theorem is by  
means of didactic examples. On the other hand, it is shown that  
the frequentist reject the central postulate of the Bayesian ap-  
proach, but are forced to replace it with alternative solutions, the  
most generalized being the Maximum Likelihood. Faced with  
this discrepancy, the authors suggest that it could be a misinter-  
pretation between both currents and offer examples in which Ba-  
yes’ postulate and the Maximum Likelihood principle yield the  
same numerical answer. Then, inferences from a priori informa-  
tion, both non-informative and informative, are analyzed and the  
inferential proposals of both schools are explored. In addition,  
the fiducial approach, which works with fictitious quantities, is  
discussed. All these aspects are discussed from the mathematical  
perspectives of renowned statisticians such as Fisher, Keynes,  
Carnap, Good, Durbin, Box, Giere, Neyman, Pearson, among  
others. In addition, philosophical assumptions that philosophers  
such as Lakatos, Popper and Kuhn, among others, have failed  
to offer are sought in order to establish a possible reconciliation  
between these currents in apparent conflict.  
Exploring Reconciliation between Fre-  
quentist and Bayesian Approaches to Sta-  
tistics  
Juan Carlos Abril1 y María de las Mercedes Abril1  
1Universidad Nacional de Tucumán y Consejo Nacional de In-  
vestigaciones Científicas y Técnicas (CONICET). Av. Indepen-  
dencia 1900, San Miguel de Tucumán, Tucumán, Argentina.  
Correspondencia: jabril@herrera.unt.edu.ar;  
mabrilblanco@hotmail.com  
Recepción: 4 de junio de 2023 - Aceptación: 1 de agosto de  
2
023 - Publicación: 16 de agosto de 2023  
Resumen  
Keywords: Classical approach, Frequential approach,  
Likelihood-based approach, Fiducial approach, Objective  
Bayesian approach, Subjective Bayesian approach, Decision  
theory.  
En estadística, la estadística frecuentista a menudo se ha con-  
siderado como la única vía. No obstante, desde la década de  
1
950, la estadística bayesiana ha ido ganando progresivamente  
terreno en la academia. El presente estudio tiene como propósi-  
to demostrar los puntos de encuentro entre estas dos corrientes  
aparentemente opuestas. Para ello, los autores realizan un reco-  
rrido por varios tópicos, explicando qué es el Teorema de Bayes  
mediante ejemplos didácticos. En contraparte, se muestra que  
los frecuentistas rechazan el postulado central del enfoque Ba-  
yesiano, pero se ven obligados a reemplazarlo con soluciones al-  
ternativas, siendo la más generalizada la Máxima Verosimilitud.  
Frente a esta discrepancia, los autores sugieren que podría tratar-  
se de una mala interpretación entre ambas corrientes y ofrecen  
ejemplos en los que el postulado de Bayes y el principio de Má-  
xima Verosimilitud arrojan la misma respuesta numérica. Luego,  
se analizan las inferencias a partir de información a priori, tanto  
no informativa como informativa, y se exploran las propuestas  
inferenciales de ambas escuelas. Además, se aborda el enfoque  
fiducial, que trabaja con cantidades ficticias. Todos estos aspec-  
tos son discutidos desde las perspectivas matemáticas de recono-  
cidos estadísticos como Fisher, Keynes, Carnap, Good, Durbin,  
Box, Giere, Neyman, Pearson, entre otros. Además, se buscan  
suposiciones filosóficas que filósofos como Lakatos, Popper y  
Kuhn, entre otros, no han logrado ofrecer para establecer una  
posible reconciliación entre estas corrientes en aparente conflic-  
to.  
1. Introducción  
La teoría de la probabilidad, nos lleva de las probabilidades  
dadas de eventos primarios a las probabilidades de eventos más  
complejos basadas en ellas. En la práctica estadística general-  
mente buscamos hacer inferencias en la dirección inversa; es  
decir, dadas las observaciones, requerimos saber algo sobre la  
población de donde emanaron o el mecanismo generador por el  
cual se produjeron.  
La inferencia estadística es un proceso inductivo que va de la  
muestra a la población. Al pensar en una hipótesis (H) y da-  
tos observacionales, o evidencia (E), no hay problema en hacer  
enunciados probabilísticos de la forma P (E |H ); de hecho, es-  
tos están justificados por la lógica deductiva una vez que se espe-  
cifican los axiomas de probabilidad, y tales afirmaciones se han  
utilizado repetidamente por muchos autores, incluso nosotros.  
Sin embargo, se ha cuestionado la existencia misma de enun-  
ciados inductivos de la forma P (H |E ) y muchos filósofos, en  
particular Sir Karl Popper (1968, 1969), han concluido que tales  
probabilidades no existen. Tales probabilidades son, por supues-  
https://doi.org/10.5281/zenodo.8205883  
67  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
to, las probabilidades a posteriori del enfoque Bayesiano, por lo  
que el debate, que no muestra signos de disminuir, es de vital  
interés para los estadísticos. Para más detalles consultar Popper  
y Miller (1987), Good (1988), Gemes (1989) y Miller (1990).  
Cualquier procedimiento inferencial debe basarse en un con-  
junto de reglas más o menos racional, pero la racionalidad de  
cualquier sistema dado y el valor aparente de las conclusiones  
que permite alcanzar permanecen abiertos a debate.  
En nuestra vida académica y profesional hemos adoptado el  
paradigma frecuentista, a veces conocido como enfoque clásico  
o frecuencial, que ha sido la escuela dominante de pensamien-  
to estadístico durante la mayor parte de los siglos XX y XXI.  
Sin embargo, el punto de vista Bayesiano ha ganado popularidad  
desde la década de 1950 y en los últimos años se han desarrolla-  
do varios otros enfoques de la inferencia, algunos más completos  
que otros.  
Por lo tanto  
P (Br |A, H ) =  
P (Br |H ) P (A |Br, H )  
P (A |H )  
.
(2)  
Usando la Ley de la Probabilidad Total podemos sustituir a  
P (A |H ) en (2). Luego encontramos  
P (Br |H ) P (A |Br, H )  
P (Br |A, H ) = P  
{
P (Br |H ) P (A |Br, H )}  
r
P (Br, A |H )  
=
P
.
(3)  
P (B , A |H )  
r
r
Esto se conoce como Teorema de Bayes, en honor a Thomas  
Bayes (1764), quien lo propuso por primera vez. Establece que  
En este trabajo intentamos esbozar tanto las áreas de acuerdo  
como las diferencias entre las principales escuelas; no es nuestro  
interés desarrollar cada enfoque en detalle.  
la probabilidad de que B ocurra dada la ocurrencia de A y la  
información H es proporcional a la probabilidad de B dado H  
multiplicada por la probabilidad de A dado B y H.  
r
r
r
r
r
r
Dado que nuestra discusión es una evaluación bastante breve  
de una extensa y compleja literatura, enfatizaremos solo los pun-  
tos principales en cuestión. Por lo tanto, examinamos las posi-  
ciones “estándares” dentro de cada escuela y no enfatizamos los  
debates dentro de una escuela (por ejemplo, la elección de axio-  
mas para la probabilidad subjetiva). Esperamos que estos gran-  
des trazos sirvan para producir retratos y no caricaturas.  
Por lo tanto, la teoría de la probabilidad, nos lleva de las pro-  
babilidades dadas de eventos primarios a las probabilidades de  
eventos más complejos basadas en ellas. En la práctica estadísti-  
ca generalmente buscamos hacer inferencias en la dirección in-  
versa; es decir, dadas las observaciones, requerimos saber algo  
sobre la población de donde emanaron o el mecanismo generador  
por el cual se produjeron. Más adelante iniciaremos un estudio  
sistemático de los diversos métodos y procesos inferenciales que  
se emplean en Estadística con este fin. En esta etapa nos limi-  
taremos a dar un relato introductorio, en términos muy amplios,  
con el objeto de dar algún punto inicial a los temas considerados  
más adelante.  
El teorema da las probabilidades de B cuando se sabe que ha  
ocurrido A. Las cantidades P (B |H ) se denominan probabili-  
dades a priori, las de tipo P (B |A, H ) se denominan probabi-  
lidades a posteriori y P (A |B , H ) se denomina verosimilitud.  
r
El teorema de Bayes puede entonces replantearse en la siguiente  
forma: la probabilidad a posteriori varía como la probabilidad a  
priori multiplicada por la verosimilitud.  
3. El postulado de Bayes  
De esta forma, el teorema se ve como una simple consecuen-  
cia lógica de las reglas de probabilidad y es indiscutible. Lo que  
ha suscitado críticas en el pasado ha sido el uso que se le ha da-  
do al teorema. Hay un principio implícito de que, si tenemos que  
elegir una de las Br, tomamos la de mayor probabilidad a pos-  
teriori. Esto es equivalente a elegir la hipótesis que maximiza la  
probabilidad conjunta de Br y A como se ve inmediatamente  
del extremo derecho de la ecuación (3). La dificultad surge del  
hecho de que para calcular las probabilidades a posteriori reque-  
rimos conocer las probabilidades a priori. Estas son, en general,  
desconocidas, y Bayes sugirió que cuando esto sea así, se debe-  
ría suponer que son iguales; o más bien, que debían ser asumidas  
iguales donde nada se supiera en contrario. Esta suposición, co-  
nocida como el Postulado de Bayes, el Principio de Equidistribu-  
ción de la Ignorancia y por uno o dos nombres más, proporcionó  
uno de los puntos más polémicos en la teoría de la inferencia es-  
tadística. Antes de discutir el punto, puede ser útil dar algunos  
ejemplos.  
2. El Teorema de Bayes  
Sea B1, B2, . . . , Bn un conjunto de eventos mutuamente ex-  
cluyentes y exhaustivos del espacio muestral , sea A otro even-  
to de  y sea H la información actualmente disponible. De  
P (A B) = P (A |B ) P (B)  
y
3.1. Ejemplos  
P (A B) = P (B |A) P (A)  
1
. Una urna contiene cuatro bolitas, que se sabe que son (a)  
todas blancas o (b) dos blancas y dos negras. Se saca una  
bolita y se encuentra que es blanca. ¿Cuál es la probabilidad  
de que todas las bolitas sean blancas?  
tenemos  
P (Br  A |H ) = P (Br, A |H )  
=
P (A |H ) P (Br |A, H )  
P (Br |H ) P (A |Br, H ) .  
(1)  
Tenemos aquí dos hipótesis, B y B . En B la probabili-  
dad de sacar una bolita blanca es 1, en B2 es 1/2. De (3)  
1
2
1
=
https://doi.org/10.5281/zenodo.8205883  
68  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
tenemos  
Además, esta será la verdadera cualesquiera que hayan sido  
las probabilidades a priori originales. De hecho, si la de la  
hipótesis (a) es t y la de (b) es 1 t, encontramos  
P (B1 |H )  
P (B1 |A, H )  
P (B2 |A, H )  
=
=
1
P (B1 |H ) + P (B2 |H )  
2
n
2
t
1
2
P (B2 |H )  
P (B1 |A, H ) =  
,
2 t + (1  t)  
n
.
1
P (B1 |H ) + P (B2 |H )  
2
que tiende a la unidad para cualquier t distinto de cero.  
Esto también está de acuerdo con el sentido común. Cua-  
lesquiera que sean las probabilidades originales, la nueva  
evidencia es tan fuerte que las supera.■  
. De una urna llena de bolitas de color desconocido se extrae  
una bolita al azar y se reemplaza m veces y se saca una  
bolita negra cada vez ¿Cuál es la probabilidad de que si se  
extrae otra bolita, ésta sea negra?  
La pregunta tal como está formulada no admite una res-  
puesta definitiva, pues habiendo un infinito número de co-  
lores y combinaciones de colores posibles, no sabemos cuá-  
les son las hipótesis a comparar. Supongamos que las bo-  
litas son blancas o negras y, por lo tanto, consideremos las  
hipótesis (1) de que todas son negras, (2) de que todas me-  
nos una son negras, (3) de que todas menos dos son negras,  
y así sucesivamente. El problema aún carece de precisión,  
ya que no se especifica el número de bolitas. Supongamos  
que hay N bolitas. Más adelante dejaremos que N tienda a  
infinito para obtener el caso límite.  
Ahora, de acuerdo con el postulado de Bayes asumimos  
1
P (B1 |H ) = P (B2 |H ) =  
2
3
y encontramos  
2
P (B1 |A, H )  
P (B2 |A, H )  
=
=
3
1
.
3
Si tuviéramos que elegir entre las dos posibilidades (a) y  
b) deberíamos seleccionar la de mayor probabilidad a pos-  
(
teriori, es decir, aceptamos el supuesto de que las bolitas  
son todas blancas.  
Ahora supongamos que reemplazamos la bolita y nueva-  
mente sacamos una al azar. Si se encuentra que es negra,  
la hipótesis (a) se rechaza rotundamente. Pero si resulta ser  
blanca, podemos calcular nuevas probabilidades a poste-  
riori en las que nuestras probabilidades a posteriori ante-  
riores se vuelven a priori. Ahora tenemos P (B1 |H ) =  
Considere la hipótesis BR de que hay R bolitas negras y  
N  R blancas. La probabilidad de sacar una bolita negra  
m
es R/N y la de hacerlo m veces seguidas es (R/N) . Si  
2
/3, P (B2 |H ) = 1/3, donde H incluye A, y una aplica-  
los B tienen probabilidades a priori iguales, tenemos, de  
ción renovada de (3) nos da las probabilidades a posteriori  
(
3),  
basadas en el nuevo evento, digamos A ,  
(
R/N)m  
.
(R/N)m  
P (BR |A, H ) =  
2
N
4
P
3
P (B1 |A , H )  
=
=
=
=
2
3
1 1  
2 3  
+
5
R=0  
1
1
1
5
Ahora la probabilidad de obtener otra bolita negra en la hi-  
2 3  
1 1  
2 3  
P (B2 |A , H )  
.
2
3
pótesis B es R/N. Dado que las hipótesis B son mutua-  
R
R
+
mente excluyentes, la probabilidad de obtener otra bolita  
negra es  
Estará claro que si repetimos el proceso y nuevamente obte-  
nemos una bolita blanca, la nueva probabilidad a posteriori  
de (a) será aún mayor. Esto está de acuerdo con el requi-  
sito del sentido común; cuanto más tiempo pasemos mues-  
treando (con reemplazo) sin obtener una bolita negra, más  
probable es que no haya bolitas negras presentes.■  
N
P
(R/N)m+1  
N
X
R
N
R=0  
P (BR |A, H ) =  
.
(4)  
N
P
R=0  
R/N)m  
(
R=0  
2
. Generalizando el Ejemplo anterior, supongamos que saca-  
mos bolitas una a la vez, reemplazándolas después de cada  
extracción, y obtenemos n bolitas blancas en sucesión. La  
probabilidad de este evento en la hipótesis (a) es la unidad;  
en la hipótesis (b) es 1/2 . De (3) tenemos, (A se refiere a  
la observación de todas las n bolas como blancas),  
Esta es la respuesta a la forma limitada de la pregunta. Co-  
mo N  ∞ esto tiende al cociente de integrales definidas  
1
R
xm+1dx  
n
m + 1  
m + 2  
0
=
.
(5)  
R1  
m
x dx  
1
2
2n  
0
P (B1 |A, H )  
P (B2 |A, H )  
=
=
=
.
1
2
1
n  
2n + 1  
+ 2  
2
Este es un caso particular de la llamada Regla o Ley de  
Sucesión de Laplace. Los entusiastas la han aplicado in-  
discriminadamente en alguna forma incondicional como la  
afirmación de que si se observa que un evento sucede m  
veces en sucesión, las posibilidades son m + 1 a 1 de que  
vuelva a suceder. Esto es claramente injustificado.■  
1
.
2n + 1  
A medida que n crece, P (B1 |A, H ) tiende a la unidad y  
P (B2 |A, H ) a cero.  
https://doi.org/10.5281/zenodo.8205883  
69  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Las principales dificultades que surgen del postulado de Ba-  
yes aparecen desde el punto de vista de la teoría frecuencial o  
frecuentista de la probabilidad, que requeriría que los estados  
correspondientes a los diversos B se distribuyeran con igual fre-  
cuencia en alguna población de la que haya emanado el B real,  
si debe aplicarse el postulado de Bayes. A algunos estadísticos,  
aunque no a todos, esto les ha parecido pedir demasiado del uni-  
verso. Sin embargo, si adoptamos el punto de vista “lógico” de  
la probabilidad, es razonable considerar que las probabilidades  
a priori son iguales cuando no se sabe nada en contrario. Asi-  
mismo, para los seguidores de la escuela subjetiva, todo lo que  
se requiere es que no se debe privilegiar ninguna hipótesis sobre  
cualquier otra al contemplar una serie de apuestas. Así, la ma-  
yoría de los que ven la probabilidad como un grado de creencia  
aceptan el postulado de Bayes, al igual que muchos frecuentistas  
lo rechazan explícitamente.  
Es de notar particularmente que esto no es lo mismo que elegir  
la hipótesis con la mayor probabilidad. Algunos defensores del  
principio de Máxima Verosimilitud niegan explícitamente cual-  
quier significado a expresiones como “la probabilidad de una hi-  
pótesis”. Veremos más adelante que en la práctica las diferencias  
entre los resultados obtenidos con Máxima Verosimilitud y el  
postulado de Bayes no son tan grandes como cabría esperar. Hay,  
sin embargo, una importante diferencia conceptual involucrada.  
De hecho, hay un cambio de énfasis en la forma en que con-  
sideramos la función de verosimilitud, reflejada en que la escri-  
bimos con una L en lugar de una P. La función de probabilidad  
ordinaria da la probabilidad de A sobre los datos B y H; A  
r
varía, B y H están dados. Desde el punto de vista de la vero-  
r
similitud, consideramos varios valores de B para A observado  
r
y H dado; B varía, A y H están dados. Es esta variación de la  
r
función para diferentes valores de los B lo que tenemos en mente  
J. L. Savage (1954, 1961) defiende el uso puramente subjetivo  
de las distribuciones a priori de Bayes. Para una exposición y  
discusión penetrante de esos puntos de vista, ver Savage (1962).  
Las distribuciones a priori que reflejan la ausencia de infor-  
mación a priori se conocen como distribuciones a priori vagas o  
no informativas. Una dificultad que surge en el caso continuo es  
que tales a priori pueden ser impropias. Cuando la información  
a priori está disponible, podemos utilizar a priori informativas.  
Todavía hay tanto desacuerdo sobre este tema que uno no pue-  
de presentar ningún conjunto de puntos de vista como ortodoxo.  
Sin embargo, una cosa está clara: cualquiera que rechace el pos-  
tulado de Bayes debe poner algo en su lugar. El problema que  
Bayes intentó resolver es sumamente importante en la inferen-  
cia científica y apenas parece posible tener ningún pensamiento  
científico sin alguna solución, por muy intuitiva y empírica que  
sea. Nos vemos constantemente obligados a evaluar el grado de  
credibilidad que se concede a las hipótesis sobre dados datos; la  
lucha por la existencia, en frase de Thiele (1903), nos obliga a  
consultar los oráculos. Pero, añadió, los oráculos no nos eximen  
del pensamiento y de la responsabilidad.  
al hablar de verosimilitud.  
Supongamos (como suele ser el caso en el trabajo estadístico)  
que las hipótesis que nos ocupan afirman algo sobre el valor nu-  
mérico de un parámetro θ. Por ejemplo, las hipótesis podrían ser  
B  θ < 0, B  θ  0, en cuyo caso hay dos alternativas. O  
1
2
podríamos tener B  θ = 1, B  θ = 2, etc., en cuyo caso  
1
2
hay una infinidad denumerable de hipótesis.  
Si ahora θ puede tener solo valores discretos, podemos, frente  
a un evento observado A, requerir estimar θ, o preguntar cuál es  
el “mejor” valor de θ para tomar, dada la evidencia A. El mé-  
todo de Bayes sería que en (3) deberíamos buscar que B haga  
r
de P (B |A, H ) un máximo. Si no sabemos nada de las pro-  
r
babilidades a priori P (B |H ), deberíamos, de acuerdo con el  
r
postulado de Bayes, suponer que todas esas probabilidades son  
iguales. Entonces simplemente tenemos que encontrar el B que  
r
maximiza L (A |B , H ). En otras palabras, el postulado de Ba-  
r
yes y el principio de Máxima Verosimilitud dan como resultado  
la misma respuesta numérica.  
4
.1. Ejemplo  
Consideremos tomar una muestra con reemplazo de una urna  
4
. Máxima verosimilitud  
que se sabe que contiene N bolitas, un número desconocido R  
de las cuales son rojas. Supondremos que se sabe que R es uno  
de los números enteros R1, ..., Rk; este conjunto puede corres-  
ponder a todos los números enteros 0  Rj  N.  
Se han propuesto varios sustitutos del postulado de Bayes.  
Algunos de ellos se plantean como soluciones a problemas es-  
pecíficos; tales son los principios de Mínimos Cuadrados y Chi-  
cuadrado Mínimo. Hay un principio, sin embargo, de aplicación  
general, el de Máxima Verosimilitud.  
Volviendo a (3) podemos escribir el teorema de Bayes en la  
forma  
Si hacemos n selecciones, la probabilidad de r bolitas rojas  
viene dada por la fórmula binomial  
n
r
r
nr  
,
p (r |n, R, N ) =  
π (1  π)  
r = 0, 1, . . . , n,  
P (Br |A, H )  P (Br |H ) L (A |Br, H ) ,  
(6)  
donde R = πN. Una vez realizado el experimento, la verosimi-  
litud de R, dado r = t digamos, es  
donde ahora escribimos L (A |Br, H ) para la verosimilitud. El  
principio de Máxima Verosimilitud establece que, cuando nos  
enfrentamos a una elección de hipótesis Br, elegimos aquella  
t
nt  
,
n R (N  R)  
L (R |n, t, N ) =  
(7)  
n
N
t
(
si la hay) que maximiza L. En otras palabras, debemos elegir  
la hipótesis que da la mayor probabilidad al evento observado.  
Mientras que el teorema de Bayes impone la maximización de la  
probabilidad conjunta de Br y A, la Máxima Verosimilitud exige  
la maximización de la probabilidad condicional de A dado Br.  
para R = R1, . . . , Rk. La probabilidad puede evaluarse para ca-  
da Rj a su vez, y el valor de Rj que da la L más grande es la es-  
timación por Máxima Verosimilitud. Claramente, multiplicar (7)  
por una probabilidad a priori constante no afecta el resultado.■  
https://doi.org/10.5281/zenodo.8205883  
70  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Esta proposición no se cumple necesariamente si los valores  
permisibles de θ son continuos. Ahora debemos reemplazar ex-  
presiones como  
por las que deberíamos adoptar el principio de Máxima Verosi-  
militud como principio de inferencia estadística, pero ya cono-  
cemos sus excelentes propiedades.  
Ahora ilustramos la discusión anterior comparando los resul-  
tados obtenidos de los argumentos Bayesiano y de Máxima Ve-  
rosimilitud para problemas relacionados con la distribución nor-  
mal.  
P (Br |H )  
por una función de densidad a priori f(θ |H ) y en lugar de (6)  
tenemos la función de densidad a posteriori  
g (θ |A, H ) f (θ |H ) L (A |θ, H ) .  
(8)  
4
.2. Ejemplo  
Si ahora requerimos el “mejor” valor de θ, deberíamos, de acuer-  
do con el postulado de Bayes, tomar la densidad a priori como  
una constante y, una vez más, deberíamos maximizar L para las  
variaciones de θ.  
Sin embargo, podríamos haber optado por representar nues-  
tras hipótesis, no por θ, sino por alguna cantidad ϕ que sea una  
función de θ, por ejemplo la desviación estándar en lugar de la  
varianza. En este caso deberíamos haber llegado a la ecuación  
Considere una muestra independiente de tamaño n de la dis-  
tribución normal  
(
)
2
1
1
2
x µ  
dF =  exp −  
dx.  
σ 2π  
σ
Si las observaciones son x1, x2, . . . , xn, la función de verosimi-  
litud puede escribirse  
(
8) con ϕ escrito en todas partes en lugar de θ; deberíamos haber  
n
2  
X
1
1
xj  µ  
tomado la probabilidad a priori como constante; y deberíamos  
haber llegado a la conclusión de que debemos maximizar L para  
variaciones de ϕ.  
Pero, ¿estamos siendo coherentes al hacerlo? Por el habitual  
argumento de cambio variable, la densidad a priori para ϕ es  
L =  
exp  
n/2  
.
n
σ (2π)  
2  
σ
j=1  
Consideramos un rango de posibles valores de µ que podrían  
haber generado estas observaciones. Para estimar µ, tomamos el  
valor que maximiza L. Dado que L es una función regular de µ,  
y L  0 cuando µ → ±∞, requerimos que µ satisfaga  
dθ  
fϕ (ϕ |H ) = f (θ |H )  
,
dϕ  
2
L
∂ L  
∂µ2  
=
∂µ  
0,  
< 0.  
de modo que si fθ es constante, fϕ no puede serlo siempre que ϕ  
sea una función no lineal de θ. Así, el uso del postulado de Bayes  
parece implicar autocontradicciones. Sin embargo, el principio  
de Máxima Verosimilitud está libre de esta dificultad, porque si  
Dado que L es positivo, obtenemos el mismo resultado al maxi-  
mizar log L, a veces (como aquí) un procedimiento más conve-  
niente. Entonces tenemos  
b
L(θ) se maximiza en θ, y ϕ(θ) es una función de θ, L(ϕ) se  
n
X
b
b
log L  
x  µ  
maximiza en ϕ = ϕ(θ). Por lo tanto, no importa cuál sea el  
resultado de la parametrización utilizada.  
j
=
+
= 0,  
(9)  
2
∂µ  
σ
j=1  
Esta es una de las razones por las que los seguidores de la  
escuela frecuencial han rechazado el postulado de Bayes en fa-  
vor del principio de Máxima Verosimilitud; pero en nuestra opi-  
nión, el asunto ha sido malinterpretado. Parece que el postulado  
de Bayes y el principio dan la misma respuesta tanto en el caso  
continuo como en el caso discreto. cuando se tiene debidamente  
en cuenta los procesos límites implicados. Vimos que al hablar  
de probabilidad en un continuo era esencial especificar la natura-  
leza del proceso hasta el límite. Si consideramos que θ (desde el  
punto de vista frecuencial) ha emanado de una población especi-  
ficada por una densidad rectangular para θ, entonces el postulado  
de Bayes aplicado a este proceso claramente dará una respues-  
ta diferente de la que se obtiene al suponer que θ emana de una  
población cuya función de densidad es rectangular para ϕ. Así,  
la inconsistencia aparente no es una inconsistencia en absoluto,  
sino una dificultad introducida al ignorar el proceso límite en po-  
blaciones continuas.  
y así el estimador de µ, digamos µb, viene dado por  
n
X
xj = b  
j=1  
o
µb = x,  
(10)  
la media de las x. Ya que  
2  
log L  
µ2  
n
= −  
< 0,  
σ2  
este es un máximo único y, por lo tanto, es la solución de Máxima  
Verosimilitud.  
Si quisiéramos estimar tanto µ como σ, deberíamos encontrar,  
además de (9),  
n
X
2
log L  
n
σ
(xj  µ)  
Sigue siendo cierto, por supuesto, que para muchos propósitos  
prácticos no sabemos cómo surgió el valor real de θ. Si requeri-  
mos una teoría de la inferencia que no se vea afectada por nuestra  
ignorancia sobre tales puntos, la objeción al postulado de Bayes  
permanece y no se aplica al principio de Máxima Verosimilitud.  
Por otro lado, todavía no hemos aducido razones convincentes  
=
+
= 0,  
(11)  
3
∂σ  
σ
j=1  
dando  
n
X
1
2
2
σb =  
(xj  µ) .  
(12)  
71  
n
j=1  
https://doi.org/10.5281/zenodo.8205883  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Mientras que µb no depende de σ, σb  depende de µ. Elegimos  
aquellos estimadores que maximizan la verosimilitud para va-  
riaciones simultáneas en µ y σ, es decir, resolvemos (9) y (11)  
simultáneamente. esto nos da  
Multiplicando (16) por la verosimilitud, obtenemos la densidad  
a posteriori (8), y vemos de inmediato que el valor de maximi-  
zación viene dado por (11) con (n + 1) en lugar de n, de modo  
que  
n
X
1
n
X
2
2
1
σb =  
(x  µ) .  
(17)  
2
2
j
σb =  
(xj  x) ,  
(13)  
n + 1  
n
j=1  
j=1  
Finalmente, si tanto µ como σ son desconocidos, combinamos  
las a priori (15) y (16) y llegamos a µb = x y (17) con µ reempla-  
zado por µb.  
y (10) y (13) conjuntamente maximizan la verosimilitud.■  
4
.3. El principio de verosimilitud  
Frecuentemente consideramos la recomendación de Fisher de  
6. A priori informativas  
que se utilice la función de verosimilitud (FV) como resumen de  
información. Sin embargo, es posible llevar más lejos esta línea  
de razonamiento y argumentar que todo procedimiento inferen-  
cial debe basarse únicamente en la FV. Este punto de vista puede  
expresarse formalmente como el principio de verosimilitud (PV),  
que también se presenta en formas débiles y fuertes. El principio  
débil (PVD) establece que toda la información sobre θ obtenida  
del experimento estadístico, E, está contenida en la FV, L (x |θ).  
Si dos repeticiones, que arrojan observaciones x1 y x2, conducen  
a probabilidades proporcionales:  
Cuando se dispone de información a priori y se puede incorpo-  
rar a la función de probabilidad a priori, la probabilidad a poste-  
riori puede determinarse a partir de (8). El estimador del paráme-  
tro desconocido θ aún se obtendrá maximizando la probabilidad  
a posteriori pero, en general, diferirá del estimador por Máxima  
Verosimilitud.  
6
.1. Ejemplo  
Suponga que la información a priori sobre la media normal µ  
puede representarse por  
L (x1 |θ) = c(x1, x2)L (x2 |θ) ,  
donde la función c es independiente de θ, x1 y x2 proporcionan  
la misma información sobre θ, o  
2
1
2
(µ λ)  
f (µ |λ, ω )  exp −  
,
−∞ < µ < .  
18)  
2
ω
(
Ev(E, x1) = Ev(E, x2),  
(14)  
Como en el Ejemplo de §4.2, suponga que tenemos una mues-  
tra independiente de tamaño n de la distribución normal. Enton-  
ces, de (8), la densidad a posteriori es  
donde la igualdad anterior significa que la evidencia obtenida de  
x1 es exactamente igual a la obtenida de x2. La forma fuerte  
(
PVF) amplía el principio para incluir dos experimentos diferen-  
tes, E1 y E2, de modo que  
2
n
2  
X
1
2
µ λ  
1
2
xj  µ  
f (µ |λ, ω, σ, x) exp  
.
ω
σ
Ev(E1, x1) = Ev(E2, x2).  
Edwards (1974) rastrea la historia del PV.  
j=1  
(
19)  
Derivando con respecto a µ, obtenemos  
n
X
f
xj  µ  
(λ µ)  
5
. A priori no informativas  
=
+
,
2
2
µ
σ
ω
j=1  
La ignorancia a priori sobre µ puede ser expresada por la dis-  
tribución rectangular a priori no informativa  
que da un máximo en  
xnω + λσ2  
2
f(µ)  dµ, −∞ < µ < .  
(15)  
µb =  
.
(20)  
 + σ2  
2
Al combinar esto con la función de verosimilitud del Ejemplo  
de §4.2, vemos que la probabilidad a posteriori se maximiza en  
Cuando n → ∞, µb  x independientemente de la informa-  
µb = x, como antes. Sin embargo, debe notarse que (15) es una a  
2
R
ción a priori contenida en (λ, ω ). Esto refuerza el punto men-  
priori impropia en el sentido de que f(µ) no existe.  
Las a priori impropias pueden conducir a paradojas en pro-  
blemas multiparamétricos, y recientemente el énfasis se ha des-  
plazado a favor del uso de la idea de intercambiabilidad de De  
Finetti para representar la ignorancia a priori.  
cionado anteriormente, que la información de una muestra sufi-  
cientemente sólida eventualmente abrumará las opiniones a prio-  
2
ri. Además, notamos que µb  x como ω  ∞. Hacer que  
2
ω  ∞ es una forma de expresar la ignorancia a priori, ya que  
(
18) muestra que ω representa la dispersión de µ alrededor de  
Cuando se desconoce σ, Jeffreys (1961) recomendó el uso de  
una a priori rectangular en la línea real para log σ, o  
x. De hecho, una forma de superar el problema de las a priori  
impropias es seleccionar una a priori informativa y luego evocar  
un argumento límite apropiado. Como en ocasiones anteriores,  
la elección adecuada del argumento límite es fundamental.■  
dσ  
f(σ)∝  
,
0 < σ < .  
(16)  
σ
https://doi.org/10.5281/zenodo.8205883  
72  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
utilizado repetidamente por muchos autores, incluso nosotros.  
Sin embargo, se ha cuestionado la existencia misma de enun-  
ciados inductivos de la forma P (H |E ) y muchos filósofos, en  
particular Sir Karl Popper (1968, 1969), han concluido que tales  
probabilidades no existen. Tales probabilidades son, por supues-  
to, las probabilidades a posteriori del enfoque Bayesiano, por lo  
que el debate es de vital interés para los estadísticos. De hecho,  
no muestra signos de disminuir dicho debate, y el lector interesa-  
do debe consultar Popper y Miller (1987), Good (1988), Gemes  
Cuadro 1: Formas comunes de distribuciones a priori con-  
jugadas  
Verosimilitud Parámetro A priori/A posteriori  
Normal  
Normal  
Binomial  
Poisson  
µ
Normal  
Gamma (para σ )  
Beta  
σ2  
2  
π
λ
Gamma  
(
1989) y Miller (1990) para conocer más desarrollos.  
Cualquier procedimiento inferencial debe basarse en un con-  
La elección de una densidad a priori normal en el Ejemplo de  
6.1 es ciertamente conveniente, pero ¿es apropiada? Recordan-  
do que tales a priori expresan grados de creencia, la respuesta  
final para el subjetivista debe ser individual, aunque la teoría ló-  
gica puede esperar una respuesta más definitiva.  
junto de reglas más o menos racional, pero la racionalidad de  
cualquier sistema dado y el valor aparente de las conclusiones  
que permite alcanzar permanecen abiertos a debate.  
§
En nuestra vida académica y profesional hemos adoptado el  
paradigma frecuentista, a veces conocido como enfoque clásico  
o frecuencial, que ha sido la escuela dominante de pensamien-  
to estadístico durante la mayor parte de los siglos XX y XXI.  
Sin embargo, el punto de vista Bayesiano ha ganado popularidad  
desde la década de 1950 y en los últimos años se han desarrolla-  
do varios otros enfoques de la inferencia, algunos más completos  
que otros.  
En este trabajo, intentamos esbozar tanto las áreas de acuerdo  
como las diferencias entre las principales escuelas; no es nuestro  
interés desarrollar cada enfoque en detalle. Barnet (1982), Da-  
wid (1984) y el volumen editado por Godambe y Sprott (1971)  
ofrecen discusiones generales sobre la inferencia comparativa.  
En Howson y Urbach (1989) aparece una discusión más filosófi-  
ca que respalda el enfoque Bayesiano subjetivo.  
Dado que nuestra discusión es una evaluación bastante breve  
de una extensa y compleja literatura, enfatizaremos solo los pun-  
tos principales en cuestión. Por lo tanto, examinamos las posi-  
ciones “estándares” dentro de cada escuela y no enfatizamos los  
debates dentro de una escuela (por ejemplo, la elección de axio-  
mas para la probabilidad subjetiva). Esperamos que estos gran-  
des trazos sirvan para producir retratos y no caricaturas.  
En general, las a priori arbitrarias hacen que las matemáticas  
sean intratables. Dado que el conocimiento de la forma funcio-  
nal de la a priori es a menudo vago, esto ha llevado al desarrollo  
de una clase de distribuciones a priori conjugadas, para las cua-  
les la a priori y la a posteriori tienen la misma forma funcional.  
Algunas de las formas comunes se resumen en el Cuadro 1.  
La introducción de a priori conjugadas abre un camino por el  
cual la información a priori puede introducirse en un análisis fre-  
cuentista. Dado que la verosimilitud y la a priori son compatibles  
en forma, el frecuentista puede especificar una probabilidad a  
priori que se considera “equivalente” a n0 observaciones. Cuan-  
do n0 = 0, la verosimilitud a priori sería plana pero aún adecua-  
da. Cuando n0 > 0, el estimador por Máxima Verosimilitud se  
modifica de la misma manera que el estimador de probabilidad a  
posteriori.  
6
.2. Ejemplo  
Sea la probabilidad a priori para la media normal  
2
n0(µ λ)  
Lp(µ |λ, n0 )  exp −  
,
−∞ < µ < ,  
2
2
σ
8. Un marco para la inferencia  
2
2
por lo que en (18) ponemos ω = σ /n0. Siguiendo el funcio-  
namiento del Ejemplo de §6.1, (20) es ahora  
En términos generales, el proceso inferencial contiene los si-  
guientes ingredientes:  
nx + n0λ  
µb =  
.
(21)  
Una variable aleatoria medible (vectorial) X, que toma va-  
lores en el espacio muestral X.  
n + n0  
Comparando (20) y (21), vemos la diferencia de énfasis en que la  
El o los parámetro(s) desconocido θ, que se puede dividir  
en parámetros de interés directo y parámetros no deseados  
2
verosimilitud a priori requiere la especificación de λ y ω . Una  
vez más, las ideas utilizadas conducen a formulaciones diferen-  
tes, aunque los resultados finales pueden ser muy similares.■  
(
en inglés “nuisance parameter”), que luego se denotan por  
θ y ϕ, respectivamente. El conjunto de valores posibles de  
θ está definido en el espacio paramétrico .  
7
. Inferencia Estadística Comparada  
La población de interés que tomamos es representable en  
términos de una familia de distribuciones de probabilidad  
{F(x, θ)}, indexada por θ. Usamos  
F  F(θ)  F(x, θ) = P(X  x |θ)  
indistintamente cuando no surja ambigüedad. La forma  
funcional de F puede estar completamente especificada o  
ser miembro de alguna clase de distribuciones, F.  
La inferencia estadística es un proceso inductivo que va de la  
muestra a la población. Al pensar en una hipótesis (H) y da-  
tos observacionales, o evidencia (E), no hay problema en hacer  
enunciados probabilísticos de la forma P (E |H ); de hecho, es-  
tos están justificados por la lógica deductiva una vez que se espe-  
cifican los axiomas de probabilidad, y tales afirmaciones se han  
https://doi.org/10.5281/zenodo.8205883  
73  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Un experimento estadístico que produce un conjunto de  
es consistente y asintóticamente insesgado bajo condiciones de  
regularidad moderada cuando las observaciones son indepen-  
dientes y de la misma distribución. Además, el EMV es una fun-  
ción de los estadísticos suficientes y es asintóticamente IVM.  
Incluso en esta etapa, encontramos alguna separación de ca-  
minos, que las propiedades para muestras grandes del EMV tien-  
den a oscurecer. Si T es un estimador insesgado para θ, entonces  
g(T) no es insesgado para ϕ = g(θ), mientras que el EMV es  
funcionalmente invariante, de modo que  
observaciones, descrito por el vector aleatorio X  
=
(
X1, X2, . . . , Xn) , con una realización particular, los da-  
tos de la muestra, denotados por x = (x1, x2, . . . , xn) . El  
procedimiento experimental especifica el modo de mues-  
treo y la forma de la regla de muestreo, S, se requiera o no  
dicha información.  
Nuestra notación no distinguirá entre vectores y escalares, a  
menos que la discusión explísitamente requiera que se haga la  
distinción.  
Además, puede haber información histórica (o previa) con res-  
pecto a θ de carácter personal u objetiva que resumimos en al-  
guna función p(θ). Dado que la especificación, el uso e incluso  
la existencia de dicha información es un tema de considerable  
debate, aplazamos la discusión adicional de este tema. La forma  
general del problema de inferencia es usar la información dispo-  
nible  
b
b
θ = T ⇐⇒ ϕ = g(T).  
(25)  
9.1. Ejemplo  
Dada una muestra aleatoria de n observaciones, X, de una  
población normal con media θ y varianza 1, tenemos que  
b
b
ϕ = (X) ,  
2
θ = X  
y
2
I = {X, , F, x, S, p}  
(22)  
cuando ϕ = θ . Sin embargo, el IVM para ϕ es  
1
para hacer declaraciones inductivas sobre θ. Ahora examinamos  
los diversos enfoques de este problema, comenzando con una  
descripción general del enfoque frecuentista o frecuencial que  
hemos adoptado hasta ahora. Luego dirigimos nuestra atención a  
la inferencia Bayesiana. Se concluye con una evaluación de los  
diferentes enfoques y una discusión de los intentos de reconci-  
liación entre estas escuelas de pensamiento.  
2
T = (X) −  
.
(26)  
n
Aunque E(T) = ϕ y ϕ 0, puede suceder que el valor observa-  
do de T sea negativo. El sentido común sugiere reemplazar los  
valores negativos de T por cero, aunque esto viola la propiedad  
de imparcialidad. En general, tales ajustes producen estimadores  
con un error cuadrático medio más pequeño, por lo que diferen-  
tes criterios pueden conducir a diferentes estimadores.■  
b
Los estimadores ad hoc obtenidos al resolver T = g(θ), don-  
9
. El enfoque frecuencial  
de E(T) = g(θ), se usan ampliamente y se justifican apelando a  
la falta de sesgo para g(θ), aunque estos estimadores están ses-  
gados para θ a menos que g(θ) es una función lineal.  
La teoría frecuencial de probabilidad supone que es posible  
considerar una sucesión infinita de réplicas independientes del  
mismo experimento estadístico.  
Ahora limitamos la atención principalmente a la estimación  
puntual. Podemos considerar un estadístico o estimador, T(X),  
como un resumen de la información sobre θ; por simplicidad,  
a menudo restringiremos la atención a un solo parámetro. En el  
estudio de la estimación identificamos ciertas propiedades desea-  
bles para T, como la consistencia y la falta de sesgo. Dado que  
a menudo hay una multiplicidad de estimadores que satisfacen  
estos requisitos, buscamos medidas de eficiencia e identificamos  
estimadores deseables como IVM, insesgados de varianza míni-  
ma. El criterio más amplio de MECM o menor error cuadrático  
medio a veces se considera más apropiado y aplicable.  
Aunque estos criterios pueden considerarse deseables en sí  
mismos, carecen de un método para construir estadísticos ade-  
cuados, T. Dentro de la familia exponencial, se puede identificar  
el conjunto de estadísticos suficientes que conducen al estimador  
IVM de θ, si existe. De manera más general, establecimos que el  
estimador por máxima verosimilitud (EMV), obtenido como  
1
0. Inferencia Bayesiana  
El enfoque Bayesiano del problema de la inducción es supo-  
ner que se puede especificar una distribución a priori para el pará-  
metro θ, p(θ), por ejemplo, definida en el espacio de parámetros  
θ  . Dada la función de verosimilitud, L(x |θ), se deduce de  
una aplicación del teorema de Bayes que la distribución a poste-  
riori es  
P(θ |x) p(θ)L(x |θ).  
(27)  
Debe notarse que la versosimilitud, L, dada en (24) difiere en la  
forma de escribir su argumento de aquella dada en (27). En un  
caso (el primero) esa función está escrita como función de θ para  
una muestra x dada, según lo considerado por Fisher, y en el otro  
caso (la segunda) se la considera como función de x para θ dado.  
Pero ambas formas son matemáticamente equivalentes.  
Una vez que se acepta la noción de especificar una distribu-  
ción a priori para θ, el marco de la inferencia Bayesiana pue-  
de desarrollarse deductivamente a partir de uno de varios siste-  
mas de axiomas (por ejemplo, Ramsey, 1926; Good, 1950; Sava-  
ge, 1962; De Groot, 1970); para una evaluación detallada, véase  
Fishburn (1986).  
b
θ = m ´a x L(θ |x),  
(23)  
θΩ  
donde  
n
Y
Por lo tanto, la pregunta clave es cómo especificar la distribu-  
ción a priori. Se pueden considerar tres enfoques posibles:  
L(θ |x) =  
f(xi |θ),  
(24)  
i=1  
https://doi.org/10.5281/zenodo.8205883  
74  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
(
i) como una distribución de frecuencias, basada en la expe-  
riencia pasada;  
10.1.1. Ejemplos  
1. Una urna contiene un número desconocido de bolitas de  
igual tamaño y peso que están hechas del mismo material.  
(
ii) como una representación objetiva de creencias iniciales ra-  
cionales sobre el parámetro;  
¿
Cuál es la probabilidad a priori de que se seleccione una  
bolita blanca en la primera extracción cuando se le dice que  
la urna contiene bolitas que son:  
(
iii) como un enunciado subjetivo sobre lo que Usted (una per-  
sona específica) cree antes de que se recopilen los datos.  
(a) blanca o no blanca,  
(b) blanca, roja o azul?  
Consideraremos la alternativa (i) sólo brevemente. De acuerdo  
con el enfoque frecuencial, necesitaríamos tener un proceso sub-  
yacente que genera los valores del parámetro que es estable, o al  
menos predecible. Los ejemplos incluyen esquemas de produc-  
ción industrial donde una distribución a priori para la proporción  
de defectuosos, por ejemplo, puede evaluarse a partir de regis-  
tros anteriores. De manera más general, los modelos de espacio  
de estado en series de tiempo suponen que los parámetros (esta-  
do) se desarrollan en el tiempo de acuerdo con una ecuación de  
estado como  
El principio de razonamiento insuficiente nos lleva a con-  
cluir que p = 1/2 en el caso (a), pero p = 1/3 en el caso  
(b).■  
A pesar de este ejemplo, el principio a menudo puede servir  
como un punto de partida razonable. Una implicación de  
ese principio es la Ley de Sucesión de Laplace que muestra  
que si se parte de  
Ω = {0, 1/N, 2/N, . . . , (N  1)/N, 1} ,  
(29)  
θt = θt1 + δt,  
(28)  
y asigna probabilidades a priori iguales 1/(N + 1) a cada  
donde δt representa un disturbio aleatorio en el tiempo t. Véase  
Abril (1999 y 2004), Abril y Abril (2018) para una discusión más  
detallada.  
estado, con  
am+1 = {la prueba (m + 1)-ésima es un éxito},  
bm = {las primeras m pruebas son éxito},  
De alguna manera, esto puede verse como una mezcla de acei-  
te y agua y podría hacerse la reconvención de que la información  
a priori no está permitida en el esquema frecuentista. Por cierto,  
tal afirmación la hacen los críticos del enfoque frecuencial, pe-  
ro parece representar una interpretación demasiado literal de ese  
punto de vista. De hecho, se debe notar que, aunque lo anterior  
se especifica en términos frecuentistas, (28) todavía requiere que  
estemos dispuestos a considerar la distribución a posteriori para  
θ.  
entonces  
m + 1  
P {am+1 |bm } =  
,
(30)  
m + 2  
para cualquier m y N  1.■  
2. Si se lanza una moneda m veces y sale cara cada vez,  
¿aceptaríamos que la probabilidad de que en el próximo  
lanzamiento salga cara viene dada por (30)?  
La respuesta probablemente sea no, porque nos basamos  
en mucha experiencia pasada que dice que la moneda tiene  
cara y cruz y que cualquier lado tiene “igual probabilidad”  
de caer boca arriba. Sin embargo, esto no viola el princi-  
pio, sino que nos dice que asignar probabilidades iguales a  
los valores en (29) no fue una declaración precisa de creen-  
cia a priori. Por el contrario, si hay tres monedas: una con  
dos caras, una estándar y otra con dos cruces, especificar  
probabilidades iguales en (29) con N = 2 sería muy plau-  
sible. Tenga en cuenta que no requerimos que se seleccio-  
ne una moneda al azar, sino que ignoramos el proceso de  
selección.■  
1
0.1. Probabilidad objetiva  
La probabilidad objetiva o lógica fue desarrollada, en parti-  
cular por Jeffreys (1961, versión revisada de su libro de 1939)  
y otros, para proporcionar una medida sustancial del peso de la  
evidencia que favorece una hipótesis dada a la luz de los datos.  
Es decir, se buscó una distribución a priori acordada que per-  
mitiera hacer afirmaciones de probabilidad a posteriori sobre la  
base de un ensayo particular.  
Gran parte del trabajo de Jeffreys se centró en las especifica-  
ciones de una distribución a priori en situaciones en las que no se  
sabe nada acerca de los parámetros antes de que se lleve a cabo  
el experimento estadístico. Curiosamente, la mayoría de los Ba-  
yesianos subjetivos, como Lindley (1971), argumentarían ahora  
que siempre hay alguna información disponible y que la espe-  
cificación de la ignorancia a priori no es un problema. Cuando  
el número de valores de θ en  es finito, es factible hacer uso  
del postulado de Bayes (también conocido como principio de  
razonamiento insuficiente o principio de indiferencia) y asignar  
probabilidades a priori iguales a cada valor posible. Esto requiere  
que se pueda establecer una base satisfactoria de posibles valores  
de parámetros, lo que no siempre es una tarea trivial.  
Ahora supongamos que es continuo; incluso si la a priori  
para θ es rectangular en un intervalo finito, eso para cualquier  
transformada no lineal de g(θ) no lo será. Esto llevó a Jeffreys a  
proponer el uso de la a priori  
1
/2  
,
p(θ) ∝ {I(θ)}  
(31)  
2
2
dónde I(θ) = E( log L/∂θ ). Él llegó a (31) seleccionan-  
do la forma de g(θ) para la cual p{g(θ)} es rectangular, incluso  
si es impropia en algunos casos; la función de g(θ) correspon-  
de entonces a un parámetro de posición para la distribución, al  
https://doi.org/10.5281/zenodo.8205883  
75  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
menos localmente. Jeffreys llamó a las a prioris dadas por (31)  
invariantes.  
La evaluación explícita de (32) puede resultar muy difícil para  
problemas de dimensiones altas. Sin embargo, los innovadores  
procedimientos de integración numérica desarrollados por Nay-  
lor y Smith (1988), entre otros, han contribuido en gran medida  
a la viabilidad de este enfoque.  
Para reglas de actualización más generales, ver Diaconis y Za-  
bell (1982).  
Aunque el concepto que Jeffreys estaba tratando de hacer ope-  
rativo es atractivo, no parece posible desarrollarlo de manera  
consistente; véanse las críticas en Barnett (1982, Capítulo 6) y  
Howson y Urbach (1989, Capítulo 9). Es interesante especular si  
Jeffreys habría adoptado (31) si sus resultados no hubieran coin-  
cidido con los existentes.  
1
0.3. Estimación Bayesiana  
1
0.2. Probabilidades subjetivas  
La estimación puntual generalmente se basa en el modo o en  
la media de la distribución a posteriori. El modo a posteriori  
Dejamos ahora el punto de vista objetivista y aceptamos que  
e
viene dado por θ, donde  
las probabilidades a priori son necesariamente personales y se  
basan en nuestra propia experiencia. Para que un esquema de  
este tipo sea operativo, es necesario que  
e
P(θ |x) = m  x P(θ |x);  
(33)  
θ
e
(
a) Uno tenga creencias sobre los parámetros de interés, que se  
pueden expresar en forma de probabilidades;  
cuando la distribución a priori es rectangular, θ será equivalente  
al estimador por MV (θb).  
La media a posteriori, dada por  
(
b) Sus probabilidades pueden compararse entre sí (aunque no  
es necesario que sean comparables con las de nadie más);  
θ = E(θ |x),  
(34)  
(
c) Sus probabilidades pueden evaluarse mediante algún es-  
quema de apuestas hipotéticas.  
será igual al estimador por MV solo para elecciones específicas  
de la distribución a priori.  
1
Si Su comportamiento de apuestas es internamente consis-  
1
0.3.1. Ejemplo  
tente, se deduce que Sus probabilidades satisfacen las reglas es-  
tándar de probabilidad y se dice que Usted es coherente; de lo  
contrario, eres incoherente y un Bayesiano podría hacer apuestas  
Contigo de tal manera que perderías dinero. Este es el principio  
de coherencia, que establece que su sistema de apuestas debe ser  
internamente consistente. Presumiblemente, se usó la coherencia  
para evitar confusiones con el uso de la consistencia de Fisher en  
la estimación y los tests de hipótesis. ¡Claramente, los no Baye-  
sianos no tienen el monopolio de las palabras clave virtuosas!  
El requisito clave ahora es la evaluación de la distribución a  
priori. La mayoría de los subjetivistas (p. ej., Ramsey, 1931; Sa-  
vage, 1954) utilizan algún método para evaluar apuestas justas,  
ya sea directamente para el fenómeno en estudio o en compara-  
ción con algunos experimentos estandarizados (p. ej., un esque-  
ma de urna). Se supone que dichas evaluaciones pueden hacerse  
directamente para las probabilidades, sin estar contaminadas por  
utilidades relativas de diferentes resultados.  
Sea π la probabilidad de éxito en un ensayo Bernoulli con  
función de frecuencia a priori  
p(π) πa1(1 π)b1  
.
Dados n ensayos con x éxitos, la a posteriori es  
P(π |x) πa+x1(1 π)b+nx1  
,
de donde obtenemos  
a + x 1  
a + x  
,
n + a + b  
e
θ =  
y
θ =  
n + a + b 2  
b
e
b
comparado con θ = x/n. Tras la inspección, θ = θ para la a  
posteriori rectangular (a = b = 1), mientras que θ = θ cuando  
a = b = 0, una elección degenerada que no es factible.■  
b
Las estimaciones por intervalo se pueden obtener directamen-  
te de la distribución a posteriori; la inferencia básica permite el  
le on rue ns c θi 1ad yo θ2 c o on probabilidad 1  α, θ se encuentra entre los va-  
Una vez que Usted haya establecido Su distribución a priori,  
el análisis Bayesiano subjetivo procede directamente, aunque a  
menudo será deseable usar conjugadas a priori como se las de-  
finió anteriormente para simplificar el álgebra. Si el conjunto de  
parámetros es (θ, ϕ), donde ϕ denota parámetro(s) no deseados  
P(θ1  θ  θ2) = P(t2 |x)  P(t1 |x) = 1  α.  
(35)  
(
nuisance), el enfoque estándar es examinar la distribución mar-  
ginal a posteriori  
El intervalo [θ1, θ2] se conoce como una región creíble del  
Z
Z
1
00(1  α) por ciento. Paralelamente a la noción de un inter-  
P(θ |x)  
=
=
P(θ, ϕ |x)dϕ  
valo físicamente más corto, podemos elegir el conjunto  de  
valores θ, tal que (35) se satisface y  
1
L(x |θ, ϕ)p(θ, ϕ)dϕ.  
(32)  
P(θ)  
θ  1 :  
 c .  
(36)  
θ
1A partir de aquí se invita al lector, es decir a Usted, a involucrarse  
en este juego y se usa mayúscula en Sus pronombres porque suponemos  
que es Usted quien realiza la acción  
Tal intervalo (o región) se conoce como la región creíble de ma-  
yor densidad a posteriori (MDP).  
https://doi.org/10.5281/zenodo.8205883  
76  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
1
0.3.2. Ejemplo  
10.5. La relación entre los enfoques Bayesianos y  
fiduciales  
Para una muestra aleatoria de tamaño n de una población nor-  
2
mal con varianza conocida, digamos N(µ, σ ), considere la dis-  
tribución a priori N(ϕ, τ ). De §6, la distribución a posteriori  
para µ es N(µp, σ ), donde  
Como se sabe, si t es el estadístico suficiente (mínimo) para  
el el único parámetro θ, con función de distribución F(t |θ), la  
distribución fiducial de θ dado t tiene función de densidad (de  
probabilidad)  
2
2
p
2
2
2 2  
σ τ  
2
ϕσ + nxτ  
2
µp =  
y
σ =  
.
2
σ + nτ  
2
2
p
σ + nτ  
G(θ |t)  
∂F(t |θ)  
g(θ |t) =  
= −  
,
(38)  
θ
∂θ  
La región creíble de MDP para µ es  
siempre que F sea monótona decreciente en θ. Algunas de las  
dificultades de este enfoque son cómo proceder en ausencia de  
un estadístico suficiente, la falta de unicidad (en casos multipa-  
ramétricos) y la falta de una interpretación frecuencial.  
µp ± z1α/2σp,  
donde z representa los puntos porcentuales de N(0, 1). En este  
e
b
ejemplo, θ = θ y estos serán iguales a θ para la a priori rectan-  
gular impropia dado al hacer τ  ∞; los intervalos creíble y de  
confianza serán idénticos (¡numéricamente hablando!).■  
Los trabajos de Fisher sobre inferencia fiducial fueron evi-  
dentemente influenciados por Keynes (1921), Carnap (1962), y  
otros, que buscaron desarrollar una visión epistémica de la pro-  
babilidad que mediría el “grado de credibilidad racional” de una  
hipótesis H en relación con los datos o evidencia E. Por lo tanto,  
aunque el desarrollo inicial de la probabilidad fiducial fue con-  
fuso, el objetivo era claro: hacer enunciados de probabilidad de  
la forma P(H |E ) o, en nuestro contexto actual, desarrollar una  
función de distribución G(θ |t). Por construcción e intención, G  
está diseñada para proporcionar información sobre θ para un solo  
ensayo, por lo que la ausencia de una interpretación frecuencial  
no es sorprendente. Está claro que el enfoque fiducial busca es-  
tablecer un enunciado inductivo completamente diferente al que  
está disponible desde el punto de vista frecuencial.  
Lindley (1958) obtuvo un resultado simple pero de gran alcan-  
ce que no solo ilumina la relación entre los argumentos fiduciales  
y Bayesianos, sino que también limita las afirmaciones de la teo-  
ría fiducial para proporcionar un método general de inferencia,  
consistente y combinable con los métodos Bayesianos. De he-  
cho, Lindley muestra que el argumento fiducial es consistente  
con los métodos Bayesianos si y solo si se aplica a una variable  
aleatoria x y un parámetro θ que pueden transformarse (por sepa-  
rado) en u y τ respectivamente, de modo que τ es un parámetro  
de locación de u; y en este caso, es equivalente a un argumento  
Bayesiano con una distribución a priori rectangular para τ. Esta  
crítica se aplica igualmente a las “distribuciones de confianza”  
definidas en la teoría general de la estimación por intervalos, en  
la medida en que coincidan con distribuciones fiduciales.  
1
0.4. Tests Bayesianos  
Las dos hipótesis unilaterales  
H0 : θ  θ0  
y
H1 : θ > θ0  
se comparan fácilmente calculando sus probabilidades a poste-  
riori  
P(H0) = P(θ0 |x),  
P(H1) = 1 P(θ0 |x).  
(37)  
Sin embargo, la comparación de  
H0 : θ = θ0  
y
H1 : θ ̸= θ0  
plantea algunas dificultades. Jeffreys (1961, Capítulo 5) argu-  
menta que el valor de θ0 se distingue de todos los demás valores  
de θ y, por lo tanto, se puede asignar una probabilidad a priori al  
punto:  
p0 = p(θ0) > 0.  
Las probabilidades a posteriori a favor de H0 son entonces  
P(θ0 |x)  
R
.
dP(θ0 |x)  
θ0  
Tal suposición es claramente plausible en algunos casos, como  
probar si un coeficiente de regresión es cero, pero depende en  
gran medida del valor de p0 seleccionado. El punto de vista fre-  
cuentista sería que la hipótesis nula a menudo merece una aten-  
ción especial, pero que no hay una forma razonable de llegar a  
un valor apropiado de p0.  
Bernardo (1980) examinó la estructu