South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Palabras claves: Enfoque clásico, Enfoque frecuencial, En-  
foque basado en la verosimilitud, Enfoque fiducial, Enfoque Ba-  
yesiano objetivo, Enfoque Bayesiano subjetivo, Teoría de la de-  
cisión.  
Explorando la Reconciliación entre los  
Enfoques Frecuentista y Bayesiano en Es-  
tadística  
Abstract  
In statistics, frequentist statistics has often been considered  
the only way. However, since the 1950s, Bayesian statistics has  
been progressively gaining ground in academia. The purpose of  
the present study is to demonstrate the meeting points between  
these two apparently opposing currents. To this end, the authors  
review several topics, explaining what Bayes’ Theorem is by  
means of didactic examples. On the other hand, it is shown that  
the frequentist reject the central postulate of the Bayesian ap-  
proach, but are forced to replace it with alternative solutions, the  
most generalized being the Maximum Likelihood. Faced with  
this discrepancy, the authors suggest that it could be a misinter-  
pretation between both currents and offer examples in which Ba-  
yes’ postulate and the Maximum Likelihood principle yield the  
same numerical answer. Then, inferences from a priori informa-  
tion, both non-informative and informative, are analyzed and the  
inferential proposals of both schools are explored. In addition,  
the fiducial approach, which works with fictitious quantities, is  
discussed. All these aspects are discussed from the mathematical  
perspectives of renowned statisticians such as Fisher, Keynes,  
Carnap, Good, Durbin, Box, Giere, Neyman, Pearson, among  
others. In addition, philosophical assumptions that philosophers  
such as Lakatos, Popper and Kuhn, among others, have failed  
to offer are sought in order to establish a possible reconciliation  
between these currents in apparent conflict.  
Exploring Reconciliation between Fre-  
quentist and Bayesian Approaches to Sta-  
tistics  
Juan Carlos Abril1 y María de las Mercedes Abril1  
1Universidad Nacional de Tucumán y Consejo Nacional de In-  
vestigaciones Científicas y Técnicas (CONICET). Av. Indepen-  
dencia 1900, San Miguel de Tucumán, Tucumán, Argentina.  
Correspondencia: jabril@herrera.unt.edu.ar;  
mabrilblanco@hotmail.com  
Recepción: 4 de junio de 2023 - Aceptación: 1 de agosto de  
2
023 - Publicación: 16 de agosto de 2023  
Resumen  
Keywords: Classical approach, Frequential approach,  
Likelihood-based approach, Fiducial approach, Objective  
Bayesian approach, Subjective Bayesian approach, Decision  
theory.  
En estadística, la estadística frecuentista a menudo se ha con-  
siderado como la única vía. No obstante, desde la década de  
1
950, la estadística bayesiana ha ido ganando progresivamente  
terreno en la academia. El presente estudio tiene como propósi-  
to demostrar los puntos de encuentro entre estas dos corrientes  
aparentemente opuestas. Para ello, los autores realizan un reco-  
rrido por varios tópicos, explicando qué es el Teorema de Bayes  
mediante ejemplos didácticos. En contraparte, se muestra que  
los frecuentistas rechazan el postulado central del enfoque Ba-  
yesiano, pero se ven obligados a reemplazarlo con soluciones al-  
ternativas, siendo la más generalizada la Máxima Verosimilitud.  
Frente a esta discrepancia, los autores sugieren que podría tratar-  
se de una mala interpretación entre ambas corrientes y ofrecen  
ejemplos en los que el postulado de Bayes y el principio de Má-  
xima Verosimilitud arrojan la misma respuesta numérica. Luego,  
se analizan las inferencias a partir de información a priori, tanto  
no informativa como informativa, y se exploran las propuestas  
inferenciales de ambas escuelas. Además, se aborda el enfoque  
fiducial, que trabaja con cantidades ficticias. Todos estos aspec-  
tos son discutidos desde las perspectivas matemáticas de recono-  
cidos estadísticos como Fisher, Keynes, Carnap, Good, Durbin,  
Box, Giere, Neyman, Pearson, entre otros. Además, se buscan  
suposiciones filosóficas que filósofos como Lakatos, Popper y  
Kuhn, entre otros, no han logrado ofrecer para establecer una  
posible reconciliación entre estas corrientes en aparente conflic-  
to.  
1. Introducción  
La teoría de la probabilidad, nos lleva de las probabilidades  
dadas de eventos primarios a las probabilidades de eventos más  
complejos basadas en ellas. En la práctica estadística general-  
mente buscamos hacer inferencias en la dirección inversa; es  
decir, dadas las observaciones, requerimos saber algo sobre la  
población de donde emanaron o el mecanismo generador por el  
cual se produjeron.  
La inferencia estadística es un proceso inductivo que va de la  
muestra a la población. Al pensar en una hipótesis (H) y da-  
tos observacionales, o evidencia (E), no hay problema en hacer  
enunciados probabilísticos de la forma P (E |H ); de hecho, es-  
tos están justificados por la lógica deductiva una vez que se espe-  
cifican los axiomas de probabilidad, y tales afirmaciones se han  
utilizado repetidamente por muchos autores, incluso nosotros.  
Sin embargo, se ha cuestionado la existencia misma de enun-  
ciados inductivos de la forma P (H |E ) y muchos filósofos, en  
particular Sir Karl Popper (1968, 1969), han concluido que tales  
probabilidades no existen. Tales probabilidades son, por supues-  
https://doi.org/10.5281/zenodo.8205883  
67  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
to, las probabilidades a posteriori del enfoque Bayesiano, por lo  
que el debate, que no muestra signos de disminuir, es de vital  
interés para los estadísticos. Para más detalles consultar Popper  
y Miller (1987), Good (1988), Gemes (1989) y Miller (1990).  
Cualquier procedimiento inferencial debe basarse en un con-  
junto de reglas más o menos racional, pero la racionalidad de  
cualquier sistema dado y el valor aparente de las conclusiones  
que permite alcanzar permanecen abiertos a debate.  
En nuestra vida académica y profesional hemos adoptado el  
paradigma frecuentista, a veces conocido como enfoque clásico  
o frecuencial, que ha sido la escuela dominante de pensamien-  
to estadístico durante la mayor parte de los siglos XX y XXI.  
Sin embargo, el punto de vista Bayesiano ha ganado popularidad  
desde la década de 1950 y en los últimos años se han desarrolla-  
do varios otros enfoques de la inferencia, algunos más completos  
que otros.  
Por lo tanto  
P (Br |A, H ) =  
P (Br |H ) P (A |Br, H )  
P (A |H )  
.
(2)  
Usando la Ley de la Probabilidad Total podemos sustituir a  
P (A |H ) en (2). Luego encontramos  
P (Br |H ) P (A |Br, H )  
P (Br |A, H ) = P  
{
P (Br |H ) P (A |Br, H )}  
r
P (Br, A |H )  
=
P
.
(3)  
P (B , A |H )  
r
r
Esto se conoce como Teorema de Bayes, en honor a Thomas  
Bayes (1764), quien lo propuso por primera vez. Establece que  
En este trabajo intentamos esbozar tanto las áreas de acuerdo  
como las diferencias entre las principales escuelas; no es nuestro  
interés desarrollar cada enfoque en detalle.  
la probabilidad de que B ocurra dada la ocurrencia de A y la  
información H es proporcional a la probabilidad de B dado H  
multiplicada por la probabilidad de A dado B y H.  
r
r
r
r
r
r
Dado que nuestra discusión es una evaluación bastante breve  
de una extensa y compleja literatura, enfatizaremos solo los pun-  
tos principales en cuestión. Por lo tanto, examinamos las posi-  
ciones “estándares” dentro de cada escuela y no enfatizamos los  
debates dentro de una escuela (por ejemplo, la elección de axio-  
mas para la probabilidad subjetiva). Esperamos que estos gran-  
des trazos sirvan para producir retratos y no caricaturas.  
Por lo tanto, la teoría de la probabilidad, nos lleva de las pro-  
babilidades dadas de eventos primarios a las probabilidades de  
eventos más complejos basadas en ellas. En la práctica estadísti-  
ca generalmente buscamos hacer inferencias en la dirección in-  
versa; es decir, dadas las observaciones, requerimos saber algo  
sobre la población de donde emanaron o el mecanismo generador  
por el cual se produjeron. Más adelante iniciaremos un estudio  
sistemático de los diversos métodos y procesos inferenciales que  
se emplean en Estadística con este fin. En esta etapa nos limi-  
taremos a dar un relato introductorio, en términos muy amplios,  
con el objeto de dar algún punto inicial a los temas considerados  
más adelante.  
El teorema da las probabilidades de B cuando se sabe que ha  
ocurrido A. Las cantidades P (B |H ) se denominan probabili-  
dades a priori, las de tipo P (B |A, H ) se denominan probabi-  
lidades a posteriori y P (A |B , H ) se denomina verosimilitud.  
r
El teorema de Bayes puede entonces replantearse en la siguiente  
forma: la probabilidad a posteriori varía como la probabilidad a  
priori multiplicada por la verosimilitud.  
3. El postulado de Bayes  
De esta forma, el teorema se ve como una simple consecuen-  
cia lógica de las reglas de probabilidad y es indiscutible. Lo que  
ha suscitado críticas en el pasado ha sido el uso que se le ha da-  
do al teorema. Hay un principio implícito de que, si tenemos que  
elegir una de las Br, tomamos la de mayor probabilidad a pos-  
teriori. Esto es equivalente a elegir la hipótesis que maximiza la  
probabilidad conjunta de Br y A como se ve inmediatamente  
del extremo derecho de la ecuación (3). La dificultad surge del  
hecho de que para calcular las probabilidades a posteriori reque-  
rimos conocer las probabilidades a priori. Estas son, en general,  
desconocidas, y Bayes sugirió que cuando esto sea así, se debe-  
ría suponer que son iguales; o más bien, que debían ser asumidas  
iguales donde nada se supiera en contrario. Esta suposición, co-  
nocida como el Postulado de Bayes, el Principio de Equidistribu-  
ción de la Ignorancia y por uno o dos nombres más, proporcionó  
uno de los puntos más polémicos en la teoría de la inferencia es-  
tadística. Antes de discutir el punto, puede ser útil dar algunos  
ejemplos.  
2. El Teorema de Bayes  
Sea B1, B2, . . . , Bn un conjunto de eventos mutuamente ex-  
cluyentes y exhaustivos del espacio muestral , sea A otro even-  
to de  y sea H la información actualmente disponible. De  
P (A B) = P (A |B ) P (B)  
y
3.1. Ejemplos  
P (A B) = P (B |A) P (A)  
1
. Una urna contiene cuatro bolitas, que se sabe que son (a)  
todas blancas o (b) dos blancas y dos negras. Se saca una  
bolita y se encuentra que es blanca. ¿Cuál es la probabilidad  
de que todas las bolitas sean blancas?  
tenemos  
P (Br  A |H ) = P (Br, A |H )  
=
P (A |H ) P (Br |A, H )  
P (Br |H ) P (A |Br, H ) .  
(1)  
Tenemos aquí dos hipótesis, B y B . En B la probabili-  
dad de sacar una bolita blanca es 1, en B2 es 1/2. De (3)  
1
2
1
=
https://doi.org/10.5281/zenodo.8205883  
68  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
tenemos  
Además, esta será la verdadera cualesquiera que hayan sido  
las probabilidades a priori originales. De hecho, si la de la  
hipótesis (a) es t y la de (b) es 1 t, encontramos  
P (B1 |H )  
P (B1 |A, H )  
P (B2 |A, H )  
=
=
1
P (B1 |H ) + P (B2 |H )  
2
n
2
t
1
2
P (B2 |H )  
P (B1 |A, H ) =  
,
2 t + (1  t)  
n
.
1
P (B1 |H ) + P (B2 |H )  
2
que tiende a la unidad para cualquier t distinto de cero.  
Esto también está de acuerdo con el sentido común. Cua-  
lesquiera que sean las probabilidades originales, la nueva  
evidencia es tan fuerte que las supera.■  
. De una urna llena de bolitas de color desconocido se extrae  
una bolita al azar y se reemplaza m veces y se saca una  
bolita negra cada vez ¿Cuál es la probabilidad de que si se  
extrae otra bolita, ésta sea negra?  
La pregunta tal como está formulada no admite una res-  
puesta definitiva, pues habiendo un infinito número de co-  
lores y combinaciones de colores posibles, no sabemos cuá-  
les son las hipótesis a comparar. Supongamos que las bo-  
litas son blancas o negras y, por lo tanto, consideremos las  
hipótesis (1) de que todas son negras, (2) de que todas me-  
nos una son negras, (3) de que todas menos dos son negras,  
y así sucesivamente. El problema aún carece de precisión,  
ya que no se especifica el número de bolitas. Supongamos  
que hay N bolitas. Más adelante dejaremos que N tienda a  
infinito para obtener el caso límite.  
Ahora, de acuerdo con el postulado de Bayes asumimos  
1
P (B1 |H ) = P (B2 |H ) =  
2
3
y encontramos  
2
P (B1 |A, H )  
P (B2 |A, H )  
=
=
3
1
.
3
Si tuviéramos que elegir entre las dos posibilidades (a) y  
b) deberíamos seleccionar la de mayor probabilidad a pos-  
(
teriori, es decir, aceptamos el supuesto de que las bolitas  
son todas blancas.  
Ahora supongamos que reemplazamos la bolita y nueva-  
mente sacamos una al azar. Si se encuentra que es negra,  
la hipótesis (a) se rechaza rotundamente. Pero si resulta ser  
blanca, podemos calcular nuevas probabilidades a poste-  
riori en las que nuestras probabilidades a posteriori ante-  
riores se vuelven a priori. Ahora tenemos P (B1 |H ) =  
Considere la hipótesis BR de que hay R bolitas negras y  
N  R blancas. La probabilidad de sacar una bolita negra  
m
es R/N y la de hacerlo m veces seguidas es (R/N) . Si  
2
/3, P (B2 |H ) = 1/3, donde H incluye A, y una aplica-  
los B tienen probabilidades a priori iguales, tenemos, de  
ción renovada de (3) nos da las probabilidades a posteriori  
(
3),  
basadas en el nuevo evento, digamos A ,  
(
R/N)m  
.
(R/N)m  
P (BR |A, H ) =  
2
N
4
P
3
P (B1 |A , H )  
=
=
=
=
2
3
1 1  
2 3  
+
5
R=0  
1
1
1
5
Ahora la probabilidad de obtener otra bolita negra en la hi-  
2 3  
1 1  
2 3  
P (B2 |A , H )  
.
2
3
pótesis B es R/N. Dado que las hipótesis B son mutua-  
R
R
+
mente excluyentes, la probabilidad de obtener otra bolita  
negra es  
Estará claro que si repetimos el proceso y nuevamente obte-  
nemos una bolita blanca, la nueva probabilidad a posteriori  
de (a) será aún mayor. Esto está de acuerdo con el requi-  
sito del sentido común; cuanto más tiempo pasemos mues-  
treando (con reemplazo) sin obtener una bolita negra, más  
probable es que no haya bolitas negras presentes.■  
N
P
(R/N)m+1  
N
X
R
N
R=0  
P (BR |A, H ) =  
.
(4)  
N
P
R=0  
R/N)m  
(
R=0  
2
. Generalizando el Ejemplo anterior, supongamos que saca-  
mos bolitas una a la vez, reemplazándolas después de cada  
extracción, y obtenemos n bolitas blancas en sucesión. La  
probabilidad de este evento en la hipótesis (a) es la unidad;  
en la hipótesis (b) es 1/2 . De (3) tenemos, (A se refiere a  
la observación de todas las n bolas como blancas),  
Esta es la respuesta a la forma limitada de la pregunta. Co-  
mo N  ∞ esto tiende al cociente de integrales definidas  
1
R
xm+1dx  
n
m + 1  
m + 2  
0
=
.
(5)  
R1  
m
x dx  
1
2
2n  
0
P (B1 |A, H )  
P (B2 |A, H )  
=
=
=
.
1
2
1
n  
2n + 1  
+ 2  
2
Este es un caso particular de la llamada Regla o Ley de  
Sucesión de Laplace. Los entusiastas la han aplicado in-  
discriminadamente en alguna forma incondicional como la  
afirmación de que si se observa que un evento sucede m  
veces en sucesión, las posibilidades son m + 1 a 1 de que  
vuelva a suceder. Esto es claramente injustificado.■  
1
.
2n + 1  
A medida que n crece, P (B1 |A, H ) tiende a la unidad y  
P (B2 |A, H ) a cero.  
https://doi.org/10.5281/zenodo.8205883  
69  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Las principales dificultades que surgen del postulado de Ba-  
yes aparecen desde el punto de vista de la teoría frecuencial o  
frecuentista de la probabilidad, que requeriría que los estados  
correspondientes a los diversos B se distribuyeran con igual fre-  
cuencia en alguna población de la que haya emanado el B real,  
si debe aplicarse el postulado de Bayes. A algunos estadísticos,  
aunque no a todos, esto les ha parecido pedir demasiado del uni-  
verso. Sin embargo, si adoptamos el punto de vista “lógico” de  
la probabilidad, es razonable considerar que las probabilidades  
a priori son iguales cuando no se sabe nada en contrario. Asi-  
mismo, para los seguidores de la escuela subjetiva, todo lo que  
se requiere es que no se debe privilegiar ninguna hipótesis sobre  
cualquier otra al contemplar una serie de apuestas. Así, la ma-  
yoría de los que ven la probabilidad como un grado de creencia  
aceptan el postulado de Bayes, al igual que muchos frecuentistas  
lo rechazan explícitamente.  
Es de notar particularmente que esto no es lo mismo que elegir  
la hipótesis con la mayor probabilidad. Algunos defensores del  
principio de Máxima Verosimilitud niegan explícitamente cual-  
quier significado a expresiones como “la probabilidad de una hi-  
pótesis”. Veremos más adelante que en la práctica las diferencias  
entre los resultados obtenidos con Máxima Verosimilitud y el  
postulado de Bayes no son tan grandes como cabría esperar. Hay,  
sin embargo, una importante diferencia conceptual involucrada.  
De hecho, hay un cambio de énfasis en la forma en que con-  
sideramos la función de verosimilitud, reflejada en que la escri-  
bimos con una L en lugar de una P. La función de probabilidad  
ordinaria da la probabilidad de A sobre los datos B y H; A  
r
varía, B y H están dados. Desde el punto de vista de la vero-  
r
similitud, consideramos varios valores de B para A observado  
r
y H dado; B varía, A y H están dados. Es esta variación de la  
r
función para diferentes valores de los B lo que tenemos en mente  
J. L. Savage (1954, 1961) defiende el uso puramente subjetivo  
de las distribuciones a priori de Bayes. Para una exposición y  
discusión penetrante de esos puntos de vista, ver Savage (1962).  
Las distribuciones a priori que reflejan la ausencia de infor-  
mación a priori se conocen como distribuciones a priori vagas o  
no informativas. Una dificultad que surge en el caso continuo es  
que tales a priori pueden ser impropias. Cuando la información  
a priori está disponible, podemos utilizar a priori informativas.  
Todavía hay tanto desacuerdo sobre este tema que uno no pue-  
de presentar ningún conjunto de puntos de vista como ortodoxo.  
Sin embargo, una cosa está clara: cualquiera que rechace el pos-  
tulado de Bayes debe poner algo en su lugar. El problema que  
Bayes intentó resolver es sumamente importante en la inferen-  
cia científica y apenas parece posible tener ningún pensamiento  
científico sin alguna solución, por muy intuitiva y empírica que  
sea. Nos vemos constantemente obligados a evaluar el grado de  
credibilidad que se concede a las hipótesis sobre dados datos; la  
lucha por la existencia, en frase de Thiele (1903), nos obliga a  
consultar los oráculos. Pero, añadió, los oráculos no nos eximen  
del pensamiento y de la responsabilidad.  
al hablar de verosimilitud.  
Supongamos (como suele ser el caso en el trabajo estadístico)  
que las hipótesis que nos ocupan afirman algo sobre el valor nu-  
mérico de un parámetro θ. Por ejemplo, las hipótesis podrían ser  
B  θ < 0, B  θ  0, en cuyo caso hay dos alternativas. O  
1
2
podríamos tener B  θ = 1, B  θ = 2, etc., en cuyo caso  
1
2
hay una infinidad denumerable de hipótesis.  
Si ahora θ puede tener solo valores discretos, podemos, frente  
a un evento observado A, requerir estimar θ, o preguntar cuál es  
el “mejor” valor de θ para tomar, dada la evidencia A. El mé-  
todo de Bayes sería que en (3) deberíamos buscar que B haga  
r
de P (B |A, H ) un máximo. Si no sabemos nada de las pro-  
r
babilidades a priori P (B |H ), deberíamos, de acuerdo con el  
r
postulado de Bayes, suponer que todas esas probabilidades son  
iguales. Entonces simplemente tenemos que encontrar el B que  
r
maximiza L (A |B , H ). En otras palabras, el postulado de Ba-  
r
yes y el principio de Máxima Verosimilitud dan como resultado  
la misma respuesta numérica.  
4
.1. Ejemplo  
Consideremos tomar una muestra con reemplazo de una urna  
4
. Máxima verosimilitud  
que se sabe que contiene N bolitas, un número desconocido R  
de las cuales son rojas. Supondremos que se sabe que R es uno  
de los números enteros R1, ..., Rk; este conjunto puede corres-  
ponder a todos los números enteros 0  Rj  N.  
Se han propuesto varios sustitutos del postulado de Bayes.  
Algunos de ellos se plantean como soluciones a problemas es-  
pecíficos; tales son los principios de Mínimos Cuadrados y Chi-  
cuadrado Mínimo. Hay un principio, sin embargo, de aplicación  
general, el de Máxima Verosimilitud.  
Volviendo a (3) podemos escribir el teorema de Bayes en la  
forma  
Si hacemos n selecciones, la probabilidad de r bolitas rojas  
viene dada por la fórmula binomial  
n
r
r
nr  
,
p (r |n, R, N ) =  
π (1  π)  
r = 0, 1, . . . , n,  
P (Br |A, H )  P (Br |H ) L (A |Br, H ) ,  
(6)  
donde R = πN. Una vez realizado el experimento, la verosimi-  
litud de R, dado r = t digamos, es  
donde ahora escribimos L (A |Br, H ) para la verosimilitud. El  
principio de Máxima Verosimilitud establece que, cuando nos  
enfrentamos a una elección de hipótesis Br, elegimos aquella  
t
nt  
,
n R (N  R)  
L (R |n, t, N ) =  
(7)  
n
N
t
(
si la hay) que maximiza L. En otras palabras, debemos elegir  
la hipótesis que da la mayor probabilidad al evento observado.  
Mientras que el teorema de Bayes impone la maximización de la  
probabilidad conjunta de Br y A, la Máxima Verosimilitud exige  
la maximización de la probabilidad condicional de A dado Br.  
para R = R1, . . . , Rk. La probabilidad puede evaluarse para ca-  
da Rj a su vez, y el valor de Rj que da la L más grande es la es-  
timación por Máxima Verosimilitud. Claramente, multiplicar (7)  
por una probabilidad a priori constante no afecta el resultado.■  
https://doi.org/10.5281/zenodo.8205883  
70  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Esta proposición no se cumple necesariamente si los valores  
permisibles de θ son continuos. Ahora debemos reemplazar ex-  
presiones como  
por las que deberíamos adoptar el principio de Máxima Verosi-  
militud como principio de inferencia estadística, pero ya cono-  
cemos sus excelentes propiedades.  
Ahora ilustramos la discusión anterior comparando los resul-  
tados obtenidos de los argumentos Bayesiano y de Máxima Ve-  
rosimilitud para problemas relacionados con la distribución nor-  
mal.  
P (Br |H )  
por una función de densidad a priori f(θ |H ) y en lugar de (6)  
tenemos la función de densidad a posteriori  
g (θ |A, H ) f (θ |H ) L (A |θ, H ) .  
(8)  
4
.2. Ejemplo  
Si ahora requerimos el “mejor” valor de θ, deberíamos, de acuer-  
do con el postulado de Bayes, tomar la densidad a priori como  
una constante y, una vez más, deberíamos maximizar L para las  
variaciones de θ.  
Sin embargo, podríamos haber optado por representar nues-  
tras hipótesis, no por θ, sino por alguna cantidad ϕ que sea una  
función de θ, por ejemplo la desviación estándar en lugar de la  
varianza. En este caso deberíamos haber llegado a la ecuación  
Considere una muestra independiente de tamaño n de la dis-  
tribución normal  
(
)
2
1
1
2
x µ  
dF =  exp −  
dx.  
σ 2π  
σ
Si las observaciones son x1, x2, . . . , xn, la función de verosimi-  
litud puede escribirse  
(
8) con ϕ escrito en todas partes en lugar de θ; deberíamos haber  
n
2  
X
1
1
xj  µ  
tomado la probabilidad a priori como constante; y deberíamos  
haber llegado a la conclusión de que debemos maximizar L para  
variaciones de ϕ.  
Pero, ¿estamos siendo coherentes al hacerlo? Por el habitual  
argumento de cambio variable, la densidad a priori para ϕ es  
L =  
exp  
n/2  
.
n
σ (2π)  
2  
σ
j=1  
Consideramos un rango de posibles valores de µ que podrían  
haber generado estas observaciones. Para estimar µ, tomamos el  
valor que maximiza L. Dado que L es una función regular de µ,  
y L  0 cuando µ → ±∞, requerimos que µ satisfaga  
dθ  
fϕ (ϕ |H ) = f (θ |H )  
,
dϕ  
2
L
∂ L  
∂µ2  
=
∂µ  
0,  
< 0.  
de modo que si fθ es constante, fϕ no puede serlo siempre que ϕ  
sea una función no lineal de θ. Así, el uso del postulado de Bayes  
parece implicar autocontradicciones. Sin embargo, el principio  
de Máxima Verosimilitud está libre de esta dificultad, porque si  
Dado que L es positivo, obtenemos el mismo resultado al maxi-  
mizar log L, a veces (como aquí) un procedimiento más conve-  
niente. Entonces tenemos  
b
L(θ) se maximiza en θ, y ϕ(θ) es una función de θ, L(ϕ) se  
n
X
b
b
log L  
x  µ  
maximiza en ϕ = ϕ(θ). Por lo tanto, no importa cuál sea el  
resultado de la parametrización utilizada.  
j
=
+
= 0,  
(9)  
2
∂µ  
σ
j=1  
Esta es una de las razones por las que los seguidores de la  
escuela frecuencial han rechazado el postulado de Bayes en fa-  
vor del principio de Máxima Verosimilitud; pero en nuestra opi-  
nión, el asunto ha sido malinterpretado. Parece que el postulado  
de Bayes y el principio dan la misma respuesta tanto en el caso  
continuo como en el caso discreto. cuando se tiene debidamente  
en cuenta los procesos límites implicados. Vimos que al hablar  
de probabilidad en un continuo era esencial especificar la natura-  
leza del proceso hasta el límite. Si consideramos que θ (desde el  
punto de vista frecuencial) ha emanado de una población especi-  
ficada por una densidad rectangular para θ, entonces el postulado  
de Bayes aplicado a este proceso claramente dará una respues-  
ta diferente de la que se obtiene al suponer que θ emana de una  
población cuya función de densidad es rectangular para ϕ. Así,  
la inconsistencia aparente no es una inconsistencia en absoluto,  
sino una dificultad introducida al ignorar el proceso límite en po-  
blaciones continuas.  
y así el estimador de µ, digamos µb, viene dado por  
n
X
xj = b  
j=1  
o
µb = x,  
(10)  
la media de las x. Ya que  
2  
log L  
µ2  
n
= −  
< 0,  
σ2  
este es un máximo único y, por lo tanto, es la solución de Máxima  
Verosimilitud.  
Si quisiéramos estimar tanto µ como σ, deberíamos encontrar,  
además de (9),  
n
X
2
log L  
n
σ
(xj  µ)  
Sigue siendo cierto, por supuesto, que para muchos propósitos  
prácticos no sabemos cómo surgió el valor real de θ. Si requeri-  
mos una teoría de la inferencia que no se vea afectada por nuestra  
ignorancia sobre tales puntos, la objeción al postulado de Bayes  
permanece y no se aplica al principio de Máxima Verosimilitud.  
Por otro lado, todavía no hemos aducido razones convincentes  
=
+
= 0,  
(11)  
3
∂σ  
σ
j=1  
dando  
n
X
1
2
2
σb =  
(xj  µ) .  
(12)  
71  
n
j=1  
https://doi.org/10.5281/zenodo.8205883  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Mientras que µb no depende de σ, σb  depende de µ. Elegimos  
aquellos estimadores que maximizan la verosimilitud para va-  
riaciones simultáneas en µ y σ, es decir, resolvemos (9) y (11)  
simultáneamente. esto nos da  
Multiplicando (16) por la verosimilitud, obtenemos la densidad  
a posteriori (8), y vemos de inmediato que el valor de maximi-  
zación viene dado por (11) con (n + 1) en lugar de n, de modo  
que  
n
X
1
n
X
2
2
1
σb =  
(x  µ) .  
(17)  
2
2
j
σb =  
(xj  x) ,  
(13)  
n + 1  
n
j=1  
j=1  
Finalmente, si tanto µ como σ son desconocidos, combinamos  
las a priori (15) y (16) y llegamos a µb = x y (17) con µ reempla-  
zado por µb.  
y (10) y (13) conjuntamente maximizan la verosimilitud.■  
4
.3. El principio de verosimilitud  
Frecuentemente consideramos la recomendación de Fisher de  
6. A priori informativas  
que se utilice la función de verosimilitud (FV) como resumen de  
información. Sin embargo, es posible llevar más lejos esta línea  
de razonamiento y argumentar que todo procedimiento inferen-  
cial debe basarse únicamente en la FV. Este punto de vista puede  
expresarse formalmente como el principio de verosimilitud (PV),  
que también se presenta en formas débiles y fuertes. El principio  
débil (PVD) establece que toda la información sobre θ obtenida  
del experimento estadístico, E, está contenida en la FV, L (x |θ).  
Si dos repeticiones, que arrojan observaciones x1 y x2, conducen  
a probabilidades proporcionales:  
Cuando se dispone de información a priori y se puede incorpo-  
rar a la función de probabilidad a priori, la probabilidad a poste-  
riori puede determinarse a partir de (8). El estimador del paráme-  
tro desconocido θ aún se obtendrá maximizando la probabilidad  
a posteriori pero, en general, diferirá del estimador por Máxima  
Verosimilitud.  
6
.1. Ejemplo  
Suponga que la información a priori sobre la media normal µ  
puede representarse por  
L (x1 |θ) = c(x1, x2)L (x2 |θ) ,  
donde la función c es independiente de θ, x1 y x2 proporcionan  
la misma información sobre θ, o  
2
1
2
(µ λ)  
f (µ |λ, ω )  exp −  
,
−∞ < µ < .  
18)  
2
ω
(
Ev(E, x1) = Ev(E, x2),  
(14)  
Como en el Ejemplo de §4.2, suponga que tenemos una mues-  
tra independiente de tamaño n de la distribución normal. Enton-  
ces, de (8), la densidad a posteriori es  
donde la igualdad anterior significa que la evidencia obtenida de  
x1 es exactamente igual a la obtenida de x2. La forma fuerte  
(
PVF) amplía el principio para incluir dos experimentos diferen-  
tes, E1 y E2, de modo que  
2
n
2  
X
1
2
µ λ  
1
2
xj  µ  
f (µ |λ, ω, σ, x) exp  
.
ω
σ
Ev(E1, x1) = Ev(E2, x2).  
Edwards (1974) rastrea la historia del PV.  
j=1  
(
19)  
Derivando con respecto a µ, obtenemos  
n
X
f
xj  µ  
(λ µ)  
5
. A priori no informativas  
=
+
,
2
2
µ
σ
ω
j=1  
La ignorancia a priori sobre µ puede ser expresada por la dis-  
tribución rectangular a priori no informativa  
que da un máximo en  
xnω + λσ2  
2
f(µ)  dµ, −∞ < µ < .  
(15)  
µb =  
.
(20)  
 + σ2  
2
Al combinar esto con la función de verosimilitud del Ejemplo  
de §4.2, vemos que la probabilidad a posteriori se maximiza en  
Cuando n → ∞, µb  x independientemente de la informa-  
µb = x, como antes. Sin embargo, debe notarse que (15) es una a  
2
R
ción a priori contenida en (λ, ω ). Esto refuerza el punto men-  
priori impropia en el sentido de que f(µ) no existe.  
Las a priori impropias pueden conducir a paradojas en pro-  
blemas multiparamétricos, y recientemente el énfasis se ha des-  
plazado a favor del uso de la idea de intercambiabilidad de De  
Finetti para representar la ignorancia a priori.  
cionado anteriormente, que la información de una muestra sufi-  
cientemente sólida eventualmente abrumará las opiniones a prio-  
2
ri. Además, notamos que µb  x como ω  ∞. Hacer que  
2
ω  ∞ es una forma de expresar la ignorancia a priori, ya que  
(
18) muestra que ω representa la dispersión de µ alrededor de  
Cuando se desconoce σ, Jeffreys (1961) recomendó el uso de  
una a priori rectangular en la línea real para log σ, o  
x. De hecho, una forma de superar el problema de las a priori  
impropias es seleccionar una a priori informativa y luego evocar  
un argumento límite apropiado. Como en ocasiones anteriores,  
la elección adecuada del argumento límite es fundamental.■  
dσ  
f(σ)∝  
,
0 < σ < .  
(16)  
σ
https://doi.org/10.5281/zenodo.8205883  
72  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
utilizado repetidamente por muchos autores, incluso nosotros.  
Sin embargo, se ha cuestionado la existencia misma de enun-  
ciados inductivos de la forma P (H |E ) y muchos filósofos, en  
particular Sir Karl Popper (1968, 1969), han concluido que tales  
probabilidades no existen. Tales probabilidades son, por supues-  
to, las probabilidades a posteriori del enfoque Bayesiano, por lo  
que el debate es de vital interés para los estadísticos. De hecho,  
no muestra signos de disminuir dicho debate, y el lector interesa-  
do debe consultar Popper y Miller (1987), Good (1988), Gemes  
Cuadro 1: Formas comunes de distribuciones a priori con-  
jugadas  
Verosimilitud Parámetro A priori/A posteriori  
Normal  
Normal  
Binomial  
Poisson  
µ
Normal  
Gamma (para σ )  
Beta  
σ2  
2  
π
λ
Gamma  
(
1989) y Miller (1990) para conocer más desarrollos.  
Cualquier procedimiento inferencial debe basarse en un con-  
La elección de una densidad a priori normal en el Ejemplo de  
6.1 es ciertamente conveniente, pero ¿es apropiada? Recordan-  
do que tales a priori expresan grados de creencia, la respuesta  
final para el subjetivista debe ser individual, aunque la teoría ló-  
gica puede esperar una respuesta más definitiva.  
junto de reglas más o menos racional, pero la racionalidad de  
cualquier sistema dado y el valor aparente de las conclusiones  
que permite alcanzar permanecen abiertos a debate.  
§
En nuestra vida académica y profesional hemos adoptado el  
paradigma frecuentista, a veces conocido como enfoque clásico  
o frecuencial, que ha sido la escuela dominante de pensamien-  
to estadístico durante la mayor parte de los siglos XX y XXI.  
Sin embargo, el punto de vista Bayesiano ha ganado popularidad  
desde la década de 1950 y en los últimos años se han desarrolla-  
do varios otros enfoques de la inferencia, algunos más completos  
que otros.  
En este trabajo, intentamos esbozar tanto las áreas de acuerdo  
como las diferencias entre las principales escuelas; no es nuestro  
interés desarrollar cada enfoque en detalle. Barnet (1982), Da-  
wid (1984) y el volumen editado por Godambe y Sprott (1971)  
ofrecen discusiones generales sobre la inferencia comparativa.  
En Howson y Urbach (1989) aparece una discusión más filosófi-  
ca que respalda el enfoque Bayesiano subjetivo.  
Dado que nuestra discusión es una evaluación bastante breve  
de una extensa y compleja literatura, enfatizaremos solo los pun-  
tos principales en cuestión. Por lo tanto, examinamos las posi-  
ciones “estándares” dentro de cada escuela y no enfatizamos los  
debates dentro de una escuela (por ejemplo, la elección de axio-  
mas para la probabilidad subjetiva). Esperamos que estos gran-  
des trazos sirvan para producir retratos y no caricaturas.  
En general, las a priori arbitrarias hacen que las matemáticas  
sean intratables. Dado que el conocimiento de la forma funcio-  
nal de la a priori es a menudo vago, esto ha llevado al desarrollo  
de una clase de distribuciones a priori conjugadas, para las cua-  
les la a priori y la a posteriori tienen la misma forma funcional.  
Algunas de las formas comunes se resumen en el Cuadro 1.  
La introducción de a priori conjugadas abre un camino por el  
cual la información a priori puede introducirse en un análisis fre-  
cuentista. Dado que la verosimilitud y la a priori son compatibles  
en forma, el frecuentista puede especificar una probabilidad a  
priori que se considera “equivalente” a n0 observaciones. Cuan-  
do n0 = 0, la verosimilitud a priori sería plana pero aún adecua-  
da. Cuando n0 > 0, el estimador por Máxima Verosimilitud se  
modifica de la misma manera que el estimador de probabilidad a  
posteriori.  
6
.2. Ejemplo  
Sea la probabilidad a priori para la media normal  
2
n0(µ λ)  
Lp(µ |λ, n0 )  exp −  
,
−∞ < µ < ,  
2
2
σ
8. Un marco para la inferencia  
2
2
por lo que en (18) ponemos ω = σ /n0. Siguiendo el funcio-  
namiento del Ejemplo de §6.1, (20) es ahora  
En términos generales, el proceso inferencial contiene los si-  
guientes ingredientes:  
nx + n0λ  
µb =  
.
(21)  
Una variable aleatoria medible (vectorial) X, que toma va-  
lores en el espacio muestral X.  
n + n0  
Comparando (20) y (21), vemos la diferencia de énfasis en que la  
El o los parámetro(s) desconocido θ, que se puede dividir  
en parámetros de interés directo y parámetros no deseados  
2
verosimilitud a priori requiere la especificación de λ y ω . Una  
vez más, las ideas utilizadas conducen a formulaciones diferen-  
tes, aunque los resultados finales pueden ser muy similares.■  
(
en inglés “nuisance parameter”), que luego se denotan por  
θ y ϕ, respectivamente. El conjunto de valores posibles de  
θ está definido en el espacio paramétrico .  
7
. Inferencia Estadística Comparada  
La población de interés que tomamos es representable en  
términos de una familia de distribuciones de probabilidad  
{F(x, θ)}, indexada por θ. Usamos  
F  F(θ)  F(x, θ) = P(X  x |θ)  
indistintamente cuando no surja ambigüedad. La forma  
funcional de F puede estar completamente especificada o  
ser miembro de alguna clase de distribuciones, F.  
La inferencia estadística es un proceso inductivo que va de la  
muestra a la población. Al pensar en una hipótesis (H) y da-  
tos observacionales, o evidencia (E), no hay problema en hacer  
enunciados probabilísticos de la forma P (E |H ); de hecho, es-  
tos están justificados por la lógica deductiva una vez que se espe-  
cifican los axiomas de probabilidad, y tales afirmaciones se han  
https://doi.org/10.5281/zenodo.8205883  
73  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Un experimento estadístico que produce un conjunto de  
es consistente y asintóticamente insesgado bajo condiciones de  
regularidad moderada cuando las observaciones son indepen-  
dientes y de la misma distribución. Además, el EMV es una fun-  
ción de los estadísticos suficientes y es asintóticamente IVM.  
Incluso en esta etapa, encontramos alguna separación de ca-  
minos, que las propiedades para muestras grandes del EMV tien-  
den a oscurecer. Si T es un estimador insesgado para θ, entonces  
g(T) no es insesgado para ϕ = g(θ), mientras que el EMV es  
funcionalmente invariante, de modo que  
observaciones, descrito por el vector aleatorio X  
=
(
X1, X2, . . . , Xn) , con una realización particular, los da-  
tos de la muestra, denotados por x = (x1, x2, . . . , xn) . El  
procedimiento experimental especifica el modo de mues-  
treo y la forma de la regla de muestreo, S, se requiera o no  
dicha información.  
Nuestra notación no distinguirá entre vectores y escalares, a  
menos que la discusión explísitamente requiera que se haga la  
distinción.  
Además, puede haber información histórica (o previa) con res-  
pecto a θ de carácter personal u objetiva que resumimos en al-  
guna función p(θ). Dado que la especificación, el uso e incluso  
la existencia de dicha información es un tema de considerable  
debate, aplazamos la discusión adicional de este tema. La forma  
general del problema de inferencia es usar la información dispo-  
nible  
b
b
θ = T ⇐⇒ ϕ = g(T).  
(25)  
9.1. Ejemplo  
Dada una muestra aleatoria de n observaciones, X, de una  
población normal con media θ y varianza 1, tenemos que  
b
b
ϕ = (X) ,  
2
θ = X  
y
2
I = {X, , F, x, S, p}  
(22)  
cuando ϕ = θ . Sin embargo, el IVM para ϕ es  
1
para hacer declaraciones inductivas sobre θ. Ahora examinamos  
los diversos enfoques de este problema, comenzando con una  
descripción general del enfoque frecuentista o frecuencial que  
hemos adoptado hasta ahora. Luego dirigimos nuestra atención a  
la inferencia Bayesiana. Se concluye con una evaluación de los  
diferentes enfoques y una discusión de los intentos de reconci-  
liación entre estas escuelas de pensamiento.  
2
T = (X) −  
.
(26)  
n
Aunque E(T) = ϕ y ϕ 0, puede suceder que el valor observa-  
do de T sea negativo. El sentido común sugiere reemplazar los  
valores negativos de T por cero, aunque esto viola la propiedad  
de imparcialidad. En general, tales ajustes producen estimadores  
con un error cuadrático medio más pequeño, por lo que diferen-  
tes criterios pueden conducir a diferentes estimadores.■  
b
Los estimadores ad hoc obtenidos al resolver T = g(θ), don-  
9
. El enfoque frecuencial  
de E(T) = g(θ), se usan ampliamente y se justifican apelando a  
la falta de sesgo para g(θ), aunque estos estimadores están ses-  
gados para θ a menos que g(θ) es una función lineal.  
La teoría frecuencial de probabilidad supone que es posible  
considerar una sucesión infinita de réplicas independientes del  
mismo experimento estadístico.  
Ahora limitamos la atención principalmente a la estimación  
puntual. Podemos considerar un estadístico o estimador, T(X),  
como un resumen de la información sobre θ; por simplicidad,  
a menudo restringiremos la atención a un solo parámetro. En el  
estudio de la estimación identificamos ciertas propiedades desea-  
bles para T, como la consistencia y la falta de sesgo. Dado que  
a menudo hay una multiplicidad de estimadores que satisfacen  
estos requisitos, buscamos medidas de eficiencia e identificamos  
estimadores deseables como IVM, insesgados de varianza míni-  
ma. El criterio más amplio de MECM o menor error cuadrático  
medio a veces se considera más apropiado y aplicable.  
Aunque estos criterios pueden considerarse deseables en sí  
mismos, carecen de un método para construir estadísticos ade-  
cuados, T. Dentro de la familia exponencial, se puede identificar  
el conjunto de estadísticos suficientes que conducen al estimador  
IVM de θ, si existe. De manera más general, establecimos que el  
estimador por máxima verosimilitud (EMV), obtenido como  
1
0. Inferencia Bayesiana  
El enfoque Bayesiano del problema de la inducción es supo-  
ner que se puede especificar una distribución a priori para el pará-  
metro θ, p(θ), por ejemplo, definida en el espacio de parámetros  
θ  . Dada la función de verosimilitud, L(x |θ), se deduce de  
una aplicación del teorema de Bayes que la distribución a poste-  
riori es  
P(θ |x) p(θ)L(x |θ).  
(27)  
Debe notarse que la versosimilitud, L, dada en (24) difiere en la  
forma de escribir su argumento de aquella dada en (27). En un  
caso (el primero) esa función está escrita como función de θ para  
una muestra x dada, según lo considerado por Fisher, y en el otro  
caso (la segunda) se la considera como función de x para θ dado.  
Pero ambas formas son matemáticamente equivalentes.  
Una vez que se acepta la noción de especificar una distribu-  
ción a priori para θ, el marco de la inferencia Bayesiana pue-  
de desarrollarse deductivamente a partir de uno de varios siste-  
mas de axiomas (por ejemplo, Ramsey, 1926; Good, 1950; Sava-  
ge, 1962; De Groot, 1970); para una evaluación detallada, véase  
Fishburn (1986).  
b
θ = m ´a x L(θ |x),  
(23)  
θΩ  
donde  
n
Y
Por lo tanto, la pregunta clave es cómo especificar la distribu-  
ción a priori. Se pueden considerar tres enfoques posibles:  
L(θ |x) =  
f(xi |θ),  
(24)  
i=1  
https://doi.org/10.5281/zenodo.8205883  
74  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
(
i) como una distribución de frecuencias, basada en la expe-  
riencia pasada;  
10.1.1. Ejemplos  
1. Una urna contiene un número desconocido de bolitas de  
igual tamaño y peso que están hechas del mismo material.  
(
ii) como una representación objetiva de creencias iniciales ra-  
cionales sobre el parámetro;  
¿
Cuál es la probabilidad a priori de que se seleccione una  
bolita blanca en la primera extracción cuando se le dice que  
la urna contiene bolitas que son:  
(
iii) como un enunciado subjetivo sobre lo que Usted (una per-  
sona específica) cree antes de que se recopilen los datos.  
(a) blanca o no blanca,  
(b) blanca, roja o azul?  
Consideraremos la alternativa (i) sólo brevemente. De acuerdo  
con el enfoque frecuencial, necesitaríamos tener un proceso sub-  
yacente que genera los valores del parámetro que es estable, o al  
menos predecible. Los ejemplos incluyen esquemas de produc-  
ción industrial donde una distribución a priori para la proporción  
de defectuosos, por ejemplo, puede evaluarse a partir de regis-  
tros anteriores. De manera más general, los modelos de espacio  
de estado en series de tiempo suponen que los parámetros (esta-  
do) se desarrollan en el tiempo de acuerdo con una ecuación de  
estado como  
El principio de razonamiento insuficiente nos lleva a con-  
cluir que p = 1/2 en el caso (a), pero p = 1/3 en el caso  
(b).■  
A pesar de este ejemplo, el principio a menudo puede servir  
como un punto de partida razonable. Una implicación de  
ese principio es la Ley de Sucesión de Laplace que muestra  
que si se parte de  
Ω = {0, 1/N, 2/N, . . . , (N  1)/N, 1} ,  
(29)  
θt = θt1 + δt,  
(28)  
y asigna probabilidades a priori iguales 1/(N + 1) a cada  
donde δt representa un disturbio aleatorio en el tiempo t. Véase  
Abril (1999 y 2004), Abril y Abril (2018) para una discusión más  
detallada.  
estado, con  
am+1 = {la prueba (m + 1)-ésima es un éxito},  
bm = {las primeras m pruebas son éxito},  
De alguna manera, esto puede verse como una mezcla de acei-  
te y agua y podría hacerse la reconvención de que la información  
a priori no está permitida en el esquema frecuentista. Por cierto,  
tal afirmación la hacen los críticos del enfoque frecuencial, pe-  
ro parece representar una interpretación demasiado literal de ese  
punto de vista. De hecho, se debe notar que, aunque lo anterior  
se especifica en términos frecuentistas, (28) todavía requiere que  
estemos dispuestos a considerar la distribución a posteriori para  
θ.  
entonces  
m + 1  
P {am+1 |bm } =  
,
(30)  
m + 2  
para cualquier m y N  1.■  
2. Si se lanza una moneda m veces y sale cara cada vez,  
¿aceptaríamos que la probabilidad de que en el próximo  
lanzamiento salga cara viene dada por (30)?  
La respuesta probablemente sea no, porque nos basamos  
en mucha experiencia pasada que dice que la moneda tiene  
cara y cruz y que cualquier lado tiene “igual probabilidad”  
de caer boca arriba. Sin embargo, esto no viola el princi-  
pio, sino que nos dice que asignar probabilidades iguales a  
los valores en (29) no fue una declaración precisa de creen-  
cia a priori. Por el contrario, si hay tres monedas: una con  
dos caras, una estándar y otra con dos cruces, especificar  
probabilidades iguales en (29) con N = 2 sería muy plau-  
sible. Tenga en cuenta que no requerimos que se seleccio-  
ne una moneda al azar, sino que ignoramos el proceso de  
selección.■  
1
0.1. Probabilidad objetiva  
La probabilidad objetiva o lógica fue desarrollada, en parti-  
cular por Jeffreys (1961, versión revisada de su libro de 1939)  
y otros, para proporcionar una medida sustancial del peso de la  
evidencia que favorece una hipótesis dada a la luz de los datos.  
Es decir, se buscó una distribución a priori acordada que per-  
mitiera hacer afirmaciones de probabilidad a posteriori sobre la  
base de un ensayo particular.  
Gran parte del trabajo de Jeffreys se centró en las especifica-  
ciones de una distribución a priori en situaciones en las que no se  
sabe nada acerca de los parámetros antes de que se lleve a cabo  
el experimento estadístico. Curiosamente, la mayoría de los Ba-  
yesianos subjetivos, como Lindley (1971), argumentarían ahora  
que siempre hay alguna información disponible y que la espe-  
cificación de la ignorancia a priori no es un problema. Cuando  
el número de valores de θ en  es finito, es factible hacer uso  
del postulado de Bayes (también conocido como principio de  
razonamiento insuficiente o principio de indiferencia) y asignar  
probabilidades a priori iguales a cada valor posible. Esto requiere  
que se pueda establecer una base satisfactoria de posibles valores  
de parámetros, lo que no siempre es una tarea trivial.  
Ahora supongamos que es continuo; incluso si la a priori  
para θ es rectangular en un intervalo finito, eso para cualquier  
transformada no lineal de g(θ) no lo será. Esto llevó a Jeffreys a  
proponer el uso de la a priori  
1
/2  
,
p(θ) ∝ {I(θ)}  
(31)  
2
2
dónde I(θ) = E( log L/∂θ ). Él llegó a (31) seleccionan-  
do la forma de g(θ) para la cual p{g(θ)} es rectangular, incluso  
si es impropia en algunos casos; la función de g(θ) correspon-  
de entonces a un parámetro de posición para la distribución, al  
https://doi.org/10.5281/zenodo.8205883  
75  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
menos localmente. Jeffreys llamó a las a prioris dadas por (31)  
invariantes.  
La evaluación explícita de (32) puede resultar muy difícil para  
problemas de dimensiones altas. Sin embargo, los innovadores  
procedimientos de integración numérica desarrollados por Nay-  
lor y Smith (1988), entre otros, han contribuido en gran medida  
a la viabilidad de este enfoque.  
Para reglas de actualización más generales, ver Diaconis y Za-  
bell (1982).  
Aunque el concepto que Jeffreys estaba tratando de hacer ope-  
rativo es atractivo, no parece posible desarrollarlo de manera  
consistente; véanse las críticas en Barnett (1982, Capítulo 6) y  
Howson y Urbach (1989, Capítulo 9). Es interesante especular si  
Jeffreys habría adoptado (31) si sus resultados no hubieran coin-  
cidido con los existentes.  
1
0.3. Estimación Bayesiana  
1
0.2. Probabilidades subjetivas  
La estimación puntual generalmente se basa en el modo o en  
la media de la distribución a posteriori. El modo a posteriori  
Dejamos ahora el punto de vista objetivista y aceptamos que  
e
viene dado por θ, donde  
las probabilidades a priori son necesariamente personales y se  
basan en nuestra propia experiencia. Para que un esquema de  
este tipo sea operativo, es necesario que  
e
P(θ |x) = m  x P(θ |x);  
(33)  
θ
e
(
a) Uno tenga creencias sobre los parámetros de interés, que se  
pueden expresar en forma de probabilidades;  
cuando la distribución a priori es rectangular, θ será equivalente  
al estimador por MV (θb).  
La media a posteriori, dada por  
(
b) Sus probabilidades pueden compararse entre sí (aunque no  
es necesario que sean comparables con las de nadie más);  
θ = E(θ |x),  
(34)  
(
c) Sus probabilidades pueden evaluarse mediante algún es-  
quema de apuestas hipotéticas.  
será igual al estimador por MV solo para elecciones específicas  
de la distribución a priori.  
1
Si Su comportamiento de apuestas es internamente consis-  
1
0.3.1. Ejemplo  
tente, se deduce que Sus probabilidades satisfacen las reglas es-  
tándar de probabilidad y se dice que Usted es coherente; de lo  
contrario, eres incoherente y un Bayesiano podría hacer apuestas  
Contigo de tal manera que perderías dinero. Este es el principio  
de coherencia, que establece que su sistema de apuestas debe ser  
internamente consistente. Presumiblemente, se usó la coherencia  
para evitar confusiones con el uso de la consistencia de Fisher en  
la estimación y los tests de hipótesis. ¡Claramente, los no Baye-  
sianos no tienen el monopolio de las palabras clave virtuosas!  
El requisito clave ahora es la evaluación de la distribución a  
priori. La mayoría de los subjetivistas (p. ej., Ramsey, 1931; Sa-  
vage, 1954) utilizan algún método para evaluar apuestas justas,  
ya sea directamente para el fenómeno en estudio o en compara-  
ción con algunos experimentos estandarizados (p. ej., un esque-  
ma de urna). Se supone que dichas evaluaciones pueden hacerse  
directamente para las probabilidades, sin estar contaminadas por  
utilidades relativas de diferentes resultados.  
Sea π la probabilidad de éxito en un ensayo Bernoulli con  
función de frecuencia a priori  
p(π) πa1(1 π)b1  
.
Dados n ensayos con x éxitos, la a posteriori es  
P(π |x) πa+x1(1 π)b+nx1  
,
de donde obtenemos  
a + x 1  
a + x  
,
n + a + b  
e
θ =  
y
θ =  
n + a + b 2  
b
e
b
comparado con θ = x/n. Tras la inspección, θ = θ para la a  
posteriori rectangular (a = b = 1), mientras que θ = θ cuando  
a = b = 0, una elección degenerada que no es factible.■  
b
Las estimaciones por intervalo se pueden obtener directamen-  
te de la distribución a posteriori; la inferencia básica permite el  
le on rue ns c θi 1ad yo θ2 c o on probabilidad 1  α, θ se encuentra entre los va-  
Una vez que Usted haya establecido Su distribución a priori,  
el análisis Bayesiano subjetivo procede directamente, aunque a  
menudo será deseable usar conjugadas a priori como se las de-  
finió anteriormente para simplificar el álgebra. Si el conjunto de  
parámetros es (θ, ϕ), donde ϕ denota parámetro(s) no deseados  
P(θ1  θ  θ2) = P(t2 |x)  P(t1 |x) = 1  α.  
(35)  
(
nuisance), el enfoque estándar es examinar la distribución mar-  
ginal a posteriori  
El intervalo [θ1, θ2] se conoce como una región creíble del  
Z
Z
1
00(1  α) por ciento. Paralelamente a la noción de un inter-  
P(θ |x)  
=
=
P(θ, ϕ |x)dϕ  
valo físicamente más corto, podemos elegir el conjunto  de  
valores θ, tal que (35) se satisface y  
1
L(x |θ, ϕ)p(θ, ϕ)dϕ.  
(32)  
P(θ)  
θ  1 :  
 c .  
(36)  
θ
1A partir de aquí se invita al lector, es decir a Usted, a involucrarse  
en este juego y se usa mayúscula en Sus pronombres porque suponemos  
que es Usted quien realiza la acción  
Tal intervalo (o región) se conoce como la región creíble de ma-  
yor densidad a posteriori (MDP).  
https://doi.org/10.5281/zenodo.8205883  
76  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
1
0.3.2. Ejemplo  
10.5. La relación entre los enfoques Bayesianos y  
fiduciales  
Para una muestra aleatoria de tamaño n de una población nor-  
2
mal con varianza conocida, digamos N(µ, σ ), considere la dis-  
tribución a priori N(ϕ, τ ). De §6, la distribución a posteriori  
para µ es N(µp, σ ), donde  
Como se sabe, si t es el estadístico suficiente (mínimo) para  
el el único parámetro θ, con función de distribución F(t |θ), la  
distribución fiducial de θ dado t tiene función de densidad (de  
probabilidad)  
2
2
p
2
2
2 2  
σ τ  
2
ϕσ + nxτ  
2
µp =  
y
σ =  
.
2
σ + nτ  
2
2
p
σ + nτ  
G(θ |t)  
∂F(t |θ)  
g(θ |t) =  
= −  
,
(38)  
θ
∂θ  
La región creíble de MDP para µ es  
siempre que F sea monótona decreciente en θ. Algunas de las  
dificultades de este enfoque son cómo proceder en ausencia de  
un estadístico suficiente, la falta de unicidad (en casos multipa-  
ramétricos) y la falta de una interpretación frecuencial.  
µp ± z1α/2σp,  
donde z representa los puntos porcentuales de N(0, 1). En este  
e
b
ejemplo, θ = θ y estos serán iguales a θ para la a priori rectan-  
gular impropia dado al hacer τ  ∞; los intervalos creíble y de  
confianza serán idénticos (¡numéricamente hablando!).■  
Los trabajos de Fisher sobre inferencia fiducial fueron evi-  
dentemente influenciados por Keynes (1921), Carnap (1962), y  
otros, que buscaron desarrollar una visión epistémica de la pro-  
babilidad que mediría el “grado de credibilidad racional” de una  
hipótesis H en relación con los datos o evidencia E. Por lo tanto,  
aunque el desarrollo inicial de la probabilidad fiducial fue con-  
fuso, el objetivo era claro: hacer enunciados de probabilidad de  
la forma P(H |E ) o, en nuestro contexto actual, desarrollar una  
función de distribución G(θ |t). Por construcción e intención, G  
está diseñada para proporcionar información sobre θ para un solo  
ensayo, por lo que la ausencia de una interpretación frecuencial  
no es sorprendente. Está claro que el enfoque fiducial busca es-  
tablecer un enunciado inductivo completamente diferente al que  
está disponible desde el punto de vista frecuencial.  
Lindley (1958) obtuvo un resultado simple pero de gran alcan-  
ce que no solo ilumina la relación entre los argumentos fiduciales  
y Bayesianos, sino que también limita las afirmaciones de la teo-  
ría fiducial para proporcionar un método general de inferencia,  
consistente y combinable con los métodos Bayesianos. De he-  
cho, Lindley muestra que el argumento fiducial es consistente  
con los métodos Bayesianos si y solo si se aplica a una variable  
aleatoria x y un parámetro θ que pueden transformarse (por sepa-  
rado) en u y τ respectivamente, de modo que τ es un parámetro  
de locación de u; y en este caso, es equivalente a un argumento  
Bayesiano con una distribución a priori rectangular para τ. Esta  
crítica se aplica igualmente a las “distribuciones de confianza”  
definidas en la teoría general de la estimación por intervalos, en  
la medida en que coincidan con distribuciones fiduciales.  
1
0.4. Tests Bayesianos  
Las dos hipótesis unilaterales  
H0 : θ  θ0  
y
H1 : θ > θ0  
se comparan fácilmente calculando sus probabilidades a poste-  
riori  
P(H0) = P(θ0 |x),  
P(H1) = 1 P(θ0 |x).  
(37)  
Sin embargo, la comparación de  
H0 : θ = θ0  
y
H1 : θ ̸= θ0  
plantea algunas dificultades. Jeffreys (1961, Capítulo 5) argu-  
menta que el valor de θ0 se distingue de todos los demás valores  
de θ y, por lo tanto, se puede asignar una probabilidad a priori al  
punto:  
p0 = p(θ0) > 0.  
Las probabilidades a posteriori a favor de H0 son entonces  
P(θ0 |x)  
R
.
dP(θ0 |x)  
θ0  
Tal suposición es claramente plausible en algunos casos, como  
probar si un coeficiente de regresión es cero, pero depende en  
gran medida del valor de p0 seleccionado. El punto de vista fre-  
cuentista sería que la hipótesis nula a menudo merece una aten-  
ción especial, pero que no hay una forma razonable de llegar a  
un valor apropiado de p0.  
Bernardo (1980) examinó la estructura de los tests Bayesia-  
nos y concluyó que no hay problemas cuando H0 y H1 tienen la  
misma dimensionalidad. En otros casos, parece que las conclu-  
siones que se extraen de tales tests son claramente interpretables  
1
0.6. Métodos empíricos de Bayes  
Una variación interesante del enfoque Bayesiano es el esque-  
ma empírico de Bayes desarrollado por Robbins (1956, 1964);  
ver Maritz y Lwin (1989) para una exposición detallada. Supon-  
ga que se dispone de una muestra de n observaciones con fun-  
ción de frecuencia f(x |θi ), donde θi representa una extracción  
aleatoria de una distribución a priori p(θ |ϕ) y ϕ representa los  
parámetros de la distribución a priori. Entonces podemos consi-  
derar la distribución marginal  
solo cuando p(θ0) depende de la a priori general p(θ), θ ̸= θ0.  
En general, los tests de hipótesis ahora reciben menos aten-  
ción por parte de los Bayesianos, quienes tienden a favorecer el  
uso de la teoría de la decisión.  
Z
f(x |ϕ) = f(x |θ)p(θ |ϕ)dθ  
(39)  
77  
https://doi.org/10.5281/zenodo.8205883  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
y utilizar métodos de MV para estimar ϕ. La distribución a pos-  
teriori de θi se aproxima por  
11. Discusión  
Ha habido tanta controversia acerca de los diversos métodos  
de estimación que hemos descrito que a partir de aquí dejare-  
mos nuestro enfoque objetivo habitual. El resto de este trabajo  
es una expresión de puntos de vista personales. Pensamos que  
esta es la posición correcta; y representa el resultado de muchos  
años de reflexión sobre los temas en cuestión, un serio intento de  
comprender lo que dicen los protagonistas y de adivinar lo que  
quieren decir.  
Tenemos, entonces, que examinar seis enfoques principales,  
aunque algunos están más estrechamente relacionados que otros:  
frecuencia, verosimilitud, fiducial, Bayesiano objetivo, Baye-  
siano subjetivo y teoría de la decisión. No debemos dejarnos en-  
gañar por la similitud de los resultados a los que conducen en  
ciertos casos simples, aunque podemos obtener algún consuelo  
de ello. Sin embargo, desarrollaremos la tesis de que, cuando di-  
fieren, la razón básica no es que uno o más estén equivocados,  
sino que, consciente o inconscientemente, responden a diferentes  
preguntas o se basen en diferentes postulados.  
Al establecer las diferencias, es útil adoptar el concepto de  
programas de investigación en competencia de Lakatos (1974) y  
establecer el núcleo duro de los supuestos que subyacen a cada  
teoría. Cada teoría está respaldada por una capa protectora de  
supuestos auxiliares, por lo que las conclusiones que se pueden  
extraer se derivan de manera deductiva de estos fundamentos. No  
nos interesa debatir extensamente qué supuestos son principales  
y cuáles auxiliares, sino más bien utilizar esto como marco para  
nuestras discusiones.  
b
P(θi |xi ) f(xi |θi )p(θi ϕ).  
(40)  
En casos particulares (por ejemplo, con conjugadas a priori),  
puede ser posible la determinación explícita de (39), de lo con-  
trario, se deben usar procedimientos numéricos.  
Este enfoque es algo así como una amalgama de ideas Baye-  
sianas y frecuentistas y tuvo una recepción mixta. Por ejemplo,  
Neyman (1962) lo aclamó como un gran avance, mientras que  
Lindley (1971) considera que no involucra ningún nuevo punto  
de principio.  
1
0.7. Teoría de la decisión  
El trabajo de Abraham Wald sobre el análisis secuencial con-  
dujo también al desarrollo de una teoría general de la toma de  
decisiones. Considere una situación donde, dados los datos, es  
necesario tomar una decisión; además, suponga que se conocen  
las consecuencias de estas decisiones y que pueden evaluarse  
numéricamente. Estas no son suposiciones triviales; por ejem-  
plo, en su desarrollo de tests de hipótesis, Nayman y Pearson  
concluyen que es poco probable que tal información esté dis-  
ponible. Dados los antecedentes necesarios, el problema es de-  
cidir sobre reglas de decisión óptimas con referencia a alguna  
medida de desempeño. Ahora procedemos a esbozar los funda-  
mentos de dicha teoría; para exposiciones más detalladas, véase  
Wald (1950), Blackwell y Girshick (1954), Ferguson (1967) y  
De Groot (1970), entre otros.  
El núcleo duro que subyace a la teoría frecuencial se puede  
resumir de la siguiente manera:  
Supongamos que podemos especificar un conjunto de accio-  
nes posibles A = {a} y una regla de decisión d(x) que especifica  
la acción a realizar cuando se observa x. La consecuencia de to-  
mar esa acción es incurrir en una pérdida L[d(x), θ] cuando el  
valor del parámetro es θ. Algunos autores utilizan una función  
de utilidad en lugar de una función de pérdida; para la mayoría  
de los propósitos, la pérdida se puede considerar como una uti-  
lidad negativa, aunque se puede considerar que la utilidad está  
acotada, mientras que a menudo se permite que las funciones de  
pérdida no sean acotadas.  
(
a) los axiomas de Kolmogorov;  
(
b) procedimientos de muestreo aleatorio bien definido, que in-  
cluyan la especificación del espacio muestral y la regla de  
parada;  
(c) la interpretación frecuencial de la probabilidad;  
(
d) una versión del principio de muestreo repetido (Cox y Hin-  
kley, 1974, p. 45) que establece que los procedimientos es-  
tadísticos deben evaluarse por su comportamiento en repe-  
ticiones hipotéticas bajo las mismas condiciones. Esta es la  
versión fuerte de Cox y Hinkley; la versión débil requiere  
únicamente que no sigamos procedimientos que induzcan  
a error para alguna combinación de parámetros (la mayoría  
de las veces, en repeticiones hipotéticas). Este principio es  
esencialmente el mismo que el principio de confianza de  
Birbaum (1977). Como se señaló anteriormente, es el con-  
flicto entre este principio y el principio de verosimilitud lo  
que está en la raíz del debate entre frecuentistas y Bayesia-  
nos.  
La pérdida esperada se conoce como la función de riesgo:  
Z
R(d, θ) = L[d(x), θ]f(x |θ)dx.  
(41)  
Una regla de decisión, d, es admisible si no hay una regla d tal  
que  
R(d , θ)  R(d, θ) para todo θ  
(42)  
con desigualdad estricta para al menos algunos θ. En general, no  
se pierde nada restringiendo la atención a la clase de reglas de  
decisión admisibles, aunque esta clase puede ser grande.  
Para seleccionar una regla de decisión particular, podemos  
usar un criterio como minimax; es decir, elegimos la regla d(x)  
que minimiza el riesgo asumido sobre todo θ:  
El cinturón protector incluye conceptos tales como consisten-  
cia, insesgamiento, eficiencia, suficiencia, poder, etc. En su aná-  
lisis de máxima verosimilitud y la teoría de la decisión, Efron  
1982, p. 343) se refiere a estos conceptos como “evasivas inge-  
(
niosas” utilizadas por Fisher para evitar un enfoque basado en  
la teoría de la decisión. Sin embargo, cabe señalar que Fisher, al  
m ´ı n m ´a x R(d, θ).  
(43)  
d
θ
https://doi.org/10.5281/zenodo.8205883  
78  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
igual que Neyman y Pearson, se esforzó por evitar fuertes suposi-  
ciones sobre la existencia y la forma de las funciones de pérdida  
y las distribuciones a priori; las nociones son ciertamente inge-  
niosas pero forman parte de un paradigma alternativo, no de una  
evasión.  
neralidad igual a 1), y suponga que sabemos que µ se encuentra  
entre 0 y 1. De acuerdo con el postulado de Bayes, deberíamos  
tener  
n
2
exp  (µ  x)  
2
P(µ |x) = R  
,
(44)  
1
n
2
2
exp  (µ  x) dµ  
0
El enfoque frecuencial conduce entonces a estimaciones pun-  
tuales y por intervalos y tests de hipótesis que son claves para una  
interpretación del desempeño a largo plazo. Los otros enfoques  
que hemos descrito constituyen varios intentos de desarrollar una  
noción adicional, o alternativa, de probabilidad que permita al  
investigador hacer enunciados inferenciales condicionados a los  
datos registrados en un experimento estadístico particular.  
El cinturón protector de cualquier teoría evoluciona con el  
tiempo, por ejemplo, cuando el enfoque de Neyman-Pearson pa-  
ra testar hipótesis suplantó los tests puros de significanción de  
Fisher; tengase en cuenta que no afirmamos que tales cambios  
sean instantáneos o estén libres de controversia. Otra posible mo-  
dificación sería el uso de ecuaciones de estimación insesgadas  
como las propuestas por Godambe (1960, 1976) en lugar de in-  
sesgamiento.  
Dos de las dificultades que enfrenta el enfoque frecuencial en  
la práctica son la especificación del espacio muestral y la necesi-  
dad de garantizar un muestreo aleatorio. Johnstone (1989) argu-  
menta que no es necesario que sepamos que la muestra se extrajo  
al azar; “todo lo que es necesario lógicamente es que no tenga-  
mos conocimiento de lo contrario”. Siguiendo a Fisher, Johns-  
tone llama a esto un postulado de ignorancia que es distinto del  
postulado de Bayes en que se aplica al espacio muestral en lugar  
del espacio de parámetros.  
Las ideas de Johnstone están claramente abiertas al abuso pe-  
ro, usadas con cuidado, tienen un mérito considerable. Por ejem-  
plo, la distribución del término de error en una ecuación de re-  
gresión aplicada a algún agregado macroeconómico tiene una in-  
terpretación mucho más plausible cuando se usa el postulado de  
Johnstone.  
El enfoque frecuencial es bastante general en el sentido de  
que puede aplicarse a cualquier situación de muestreo una vez  
que el proceso de muestreo esté completamente especificado. Sin  
embargo, puede haber dificultades en la ejecución. Por ejemplo,  
cuando no existe un único estadístico suficiente, los intervalos de  
confianza pueden no ser reales o ser nulos. Así, la suficiencia es  
deseable, aunque no se requiera. Quizás, sería mejor decir que  
pueden existir problemas de interpretación cuando no se pueden  
obtener intervalos anidados y conexos simples.  
y el problema de poner límites a µ, aunque no exento de comple-  
jidad matemática, es determinante. ¿Qué tiene que decir la teoría  
de los intervalos de confianza sobre este punto? No puede hacer  
más que reiterar enunciados como  
1
, 96  
1, 96  
P
x −  
 µ  x +  
= 0, 95.  
n
n
Estos siguen siendo ciertos en la proporción requerida de ca-  
sos, pero el enunciado no tiene en cuenta nuestro conocimiento a  
priori sobre el rango de µ y ocasionalmente puede ser inútil. Pue-  
de ser cierto, pero es absurdo afirmar 1  µ  2 si ya sabemos  
que 0  µ  1. Por supuesto, podemos truncar nuestro intervalo  
de acuerdo con la información a priori. En nuestro ejemplo, solo  
podríamos afirmar que 0  µ  1: las observaciones no habrían  
agregado nada a nuestro conocimiento.  
Así, parece que la teoría frecuencial tiene el defecto de su  
principal virtud: alcanza su generalidad al precio de no poder in-  
corporar conocimientos a priori a sus enunciados. Cuando hace-  
mos nuestro juicio final sobre µ, tenemos que sintetizar la infor-  
mación obtenida de las observaciones con nuestro conocimiento  
a priori. El teorema de Bayes intenta esta síntesis desde el prin-  
cipio. La teoría frecuencial lo deja para el final (y, nos sentimos  
obligados a señalar, en la mayoría de las exposiciones actuales  
ignora el punto por completo).  
La teoría fiducial, como hemos señalado, ha sido confinada  
por Fisher al caso en el que se utilizan estadísticos suficientes o,  
en general, a casos en los que se puede utilizar toda la informa-  
ción de la función de verosimilitud. No se ha dado una exposi-  
ción sistemática del procedimiento a seguir cuando se dispone  
de información a priori, pero no parece haber motivo para no  
utilizar un método similar al explicado por la ecuación (44). Es  
decir, si derivamos la distribución fiducial f(µ) sobre un rango  
general pero tenemos la información adicional de que el paráme-  
tro debe estar en el rango µ0 a µ1 (dentro de ese rango general),  
modificamos la distribución fiducial por truncamiento a  
f(µ)  
R
.
µ1  
f(µ)dµ  
µ0  
El principal argumento a favor de la teoría frecuencial de la  
probabilidad es que no presupone ninguna distribución a priori,  
como las que son esenciales para el enfoque Bayesiano. Esto, en  
nuestra opinión, es innegable. Pero es justo preguntarse si logra  
esta economía de supuestos básicos sin perder algo que posee  
la teoría Bayesiana. Nuestra opinión es que en ocasiones pierde  
algo, y que ese algo puede ser importante a los efectos de la  
estimación.  
1
1.2. Falsacionismo  
Una observación final es relevante con respecto al enfoque  
frecuentista. Su desarrollo fue paralelo al desarrollo del falsa-  
cionismo en la filosofía de la ciencia, encabezado por Sir Karl  
Popper (cf. Popper, 1968). La base del esquema de Popper es  
que la evidencia puede o no refutar una teoría pero no la sos-  
tiene; es decir, la ciencia progresa realizando experimentos que  
desafían las teorías. Esta visión de la ciencia no permite que los  
resultados de un experimento proporcionen una corroboración  
explícita de la teoría; está simbolizado por la restricción de que  
hablamos de “no rechazar H0” en lugar de “aceptar H0”. Más  
1
1.1. Información a priori  
Considere el caso en el que estamos estimando la media µ de  
una población normal con varianza conocida (sin pérdida de ge-  
https://doi.org/10.5281/zenodo.8205883  
79  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
fundamentalmente, el enfoque frecuentista no busca proporcio-  
nar medidas de corroboración, y es la búsqueda de estas medidas  
lo que, en parte, ha impulsado el desarrollo de paradigmas alter-  
nativos para la inferencia estadística. De hecho, todos los demás  
enfoques descritos en este trabajo permiten hacer afirmaciones  
corroborativas sobre la base del experimento recién realizado y  
condicionalmente a las observaciones.  
la a priori sea plana en (−∞, ) pero inversamente proporcio-  
nal a θ en (0, ). Los argumentos sofisticados relacionados con  
la distinción de alguna manera no logran impresionarnos como  
tocando la raíz del problema. Además, se encuentra que trabajar  
con a priori no informativas puede conducir a algunas dificulta-  
des teóricas; ver Stone (1976).  
El núcleo duro de los subjetivistas exige que el individuo es-  
té dispuesto a apostar por cualquier cosa, pero de manera lógi-  
ca, como se señaló en §10.2. Dado este marco, ciertamente Uno  
puede comenzar con Su enunciado de probabilidad a priori y de-  
rivar Su enunciado de probabilidad a posteriori con respecto a  
la plausibilidad de una hipótesis. Comencemos por considerar el  
proceso de especificación de la distribución a priori.  
1
1.3. Inferencia basada en la verosimilitud  
Todas las escuelas de pensamiento reconocen que la función  
de verosimilitud (FV) es un resumen completo de los datos. De  
hecho, Fisher (1956) sugirió graficar la FV contra θ; otros (por  
ejemplo, Efron, 1982) también apoyan firmemente el uso de la  
FV como un resumen eficaz. Edwards (1972), argumentando que  
la FV describe el soporte relativo para diferentes valores de θ,  
fue más allá y sugirió que la inferencia se hiciera sobre la ba-  
se de estos valores de soporte. Claramente, tal enfoque es con-  
sistente con el principio de verosimilitud fuerte (PVF), aunque  
es incompleto a menos que se complemente con algún procedi-  
miento para manejar parámetros no deseados (nuisance), como  
el uso de la verosimilitud parcial o el uso de la razón de verosi-  
militud como medida de credibilidad. Dichos métodos tienen la  
ventaja de que se puede incorporar información a priori a través  
de una función de verosimilitud a priori.  
Si la distribución a priori se especifica en forma conjugada,  
2
como la media normal siendo N(ϕ, τ ), entonces nos enfrenta-  
mos a una posible regresión infinita al especificar la a priori para  
2
(
ϕ, τ ) y así sucesivamente. Esto se resuelve sólo alegando el  
conocimiento de los (hiper) parámetros en algún momento (cf.  
Lindley y Smith, 1972). Si la distribución a priori se determina  
dentro de un marco de apuestas, Usted debe poder especificar  
Su función de utilidad. Una vez que esto está disponible, un de-  
sarrollo axiomático como el de Savage (1954) muestra que el  
comportamiento coherente conduce a grados de creencia que sa-  
tisfacen los axiomas de probabilidad.  
Una vez que esté disponible la información a priori, Usted  
puede proceder a hacer inferencias de una manera que sea con-  
sistente con el PVF (y, por lo tanto, posiblemente inconsistente  
con el principio de confianza). Si esto es una fuente de fortaleza  
o debilidad depende del ojo del espectador, pero el hecho es que  
todas las inferencias hechas son subjetivas, Sus propias evalua-  
ciones.  
Los procedimientos Bayesianos siempre son consistentes con  
el PVF, aunque los métodos empíricos de Bayes no necesitan  
serlo. La inferencia fiducial puede violar el PVF, aunque tales  
violaciones tienden a ser poco comunes.  
1
1.4. La probabilidad como un grado de creencia  
Si tales declaraciones individuales son aceptables es proble-  
mático. Al tomar una decisión en un contexto que carece de  
oportunidades de replicación, el uso de Tus probabilidades pa-  
rece razonable cuando Tú eres el responsable de la decisión. Sin  
embargo, creemos que muchos análisis estadísticos, si no la ma-  
yoría, no pueden encajar razonablemente en un marco de teoría  
de decisiones. Además, la expresión de creencias personales no  
ha resultado aceptable como forma de informar sobre los resul-  
tados de una investigación.  
En los argumentos Bayesianos y fiduciales, primero debemos  
asumir la existencia de un concepto diferente de probabilidad  
que mide el grado de creencia o credibilidad en una hipótesis  
o teoría. Carnap (1962) denominó a esta probabilidad1, a dife-  
rencia del concepto frecuencial, probabilidad2. Visto desde este  
punto de vista, el fracaso (?) del enfoque frecuencial para ofrecer  
aseveraciones sobre la credibilidad de una hipótesis es casi axio-  
mático, ya que los frecuentistas no están dispuestos a aceptar  
ningún concepto de probabilidad1 que no tenga una interpreta-  
ción frecuencial.  
El argumento fiducial se basa en el supuesto de que la  
probabilidad2 se puede convertir en probabilidad1 mediante una  
operación de pivote. Sabemos que el proceso es posible; la pre-  
gunta clave es si la medida de probabilidad resultante tiene sen-  
tido.  
El núcleo duro de la inferencia Bayesiana es un desarrollo  
axiomático que proporciona el marco para especificar probabi-  
lidades a priori y actualizar dichas probabilidades mediante el  
teorema de Bayes. Para el objetivista, esto significa que debe ha-  
ber un proceso acordado mediante el cual se pueda generar una a  
priori que sea aceptable para todos. Tal regla es necesariamente  
mecanicista, ya que la interpretación subjetiva no es admisible;  
sin embargo, si el cumplimiento de la regla no puede juzgarse ni  
por la frecuencia ni por criterios subjetivos, su significado sigue  
siendo bastante oscuro. En efecto, se nos pide que aceptemos que  
12. ¿Reconciliación?  
Como era de esperar, ha habido varios intentos de reconci-  
liar los diferentes enfoques de la inferencia estadística; Revisa-  
remos algunos de estos brevemente. Comenzamos observando  
que, en muestras grandes, todos los métodos son consistentes  
con el principio de verosimilitud fuerte.  
Es posible ver que el uso del teorema de Bayes con una distri-  
bución a priori rectangular da un modo a posteriori que es igual  
al estimador por MV. Incluso si se utiliza una distribución a prio-  
ri no rectangular, los métodos son asintóticamente equivalentes.  
La ecuación (6) puede escribirse en nuestra notación actual como  
P (θ |x) p(θ)L (x |θ) .  
(45)  
Maximizar esto con respecto a θ es equivalente a maximizar su  
https://doi.org/10.5281/zenodo.8205883  
80  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
logaritmo,  
I. J. Good (cf. 1976, 1983, 1988) pide un compromiso  
Bayesiano-no-Bayesiano desde un punto de vista diferente. Para  
Good, los métodos frecuentistas a menudo representan una co-  
lección de procedimientos ad hoc, y aceptaría los procedimientos  
frecuentistas siempre que coincidan lo suficientemente bien con  
la solución Bayesiana. Si bien tal enfoque puede servir para re-  
ducir la controversia, “compromiso” es quizás una descripción  
inapropiada.  
Juntando estas diversas consideraciones, vemos que la bue-  
na práctica estadística a menudo puede surgir de diferentes pa-  
radigmas y que, de hecho, diferentes nociones de probabilidad  
pueden ser apropiadas en diferentes circunstancias. Sin embar-  
go, el enfoque frecuentista permanece firmemente arraigado en  
la tradición Popperiana del falsacionismo, y cualquier intento de  
ir más allá requiere el reconocimiento de algún otro concepto de  
probabilidad.  
n
X
1
log p(θ) + log L (x |θ) =  
log f (xi |θ) + log p(θ) .  
n
i=1  
(46)  
Cuando n → ∞, el segundo término entre llaves del segundo  
miembro es insignificante y estamos maximizando efectivamen-  
te log L (x |θ) para obtener el estimador por MV. Podemos ex-  
presar esto diciendo que, dadas suficientes observaciones, la dis-  
tribución a priori se vuelve irrelevante; esto se conoce como el  
principio de estimación estable. Sin embargo, para n pequeño,  
puede haber grandes diferencias entre las estimaciones por MV  
y las Bayesianas.  
Diaconis y Freedman (1986a, b) muestran que cuando el espa-  
cio paramétrico es de alta dimensión (o infinitamente dimensio-  
nal como en algunos problemas no paramétricos), la distribución  
a priori puede empantanar los datos sin importar cuántas obser-  
vaciones estén disponibles. En este sentido, los estimadores Ba-  
yesianos pueden carecer de consistencia; también debe consul-  
tarse la discusión que siguió a su artículo de 1986a.  
Un aspecto del enfoque Bayesiano es, como hemos sugerido  
en alguna ocasión, que exige demasiado. Por ejemplo, necesita-  
mos poder especificar la forma funcional de la FV y enumerar to-  
das las variables de interés. Sin embargo, gran parte del atractivo  
del procedimiento, como la validación cruzada y el botstrapping,  
se deriva de sus aplicaciones en circunstancias en las que puede  
que no sea posible especificar la FV con precisión. Asimismo, la  
aleatorización en el diseño experimental protege contra factores  
que pueden no haber sido reconocidos.  
Siguiendo este tema, Durbin (1988) señala que la compleji-  
dad general de muchos modelos hace que las especificaciones de  
la FV y, por lo tanto, la aplicación del principio de verosimili-  
tud, sean poco prácticas. Sin embargo, los tests de diagnóstico  
simples a menudo guían bien al constructor del modelo, y Dur-  
bin sugiere que los efectos prácticos de las diferencias filosóficas  
suelen ser pequeños en comparación con la necesidad de un mo-  
delo estadístico efectivo.  
Puede ser tentador pensar en términos de la noción de Kuhn  
1970) de una revolución científica en la que el paradigma actual  
frecuentista) es desafiado por el recién llegado (Bayesiano), de  
(
(
la cual surgirá una nueva ortodoxia. Sin embargo, este punto de  
vista es algo inapropiado; más bien deberíamos reconocer que  
el enfoque Bayesiano busca entregar más pero, para hacerlo, re-  
quiere suposiciones más fuertes.  
Para concluir, conviene citar algunas palabras escritas hace  
mucho tiempo (Kendall, 1949):  
El frecuentista busca objetividad al definir sus  
probabilidades por referencia a frecuencias; pero tie-  
ne que usar una idea primitiva de aleatoriedad o equi-  
probabilidad para calcular la probabilidad en cual-  
quier caso práctico dado. El no-fecuentista comienza  
tomando las probabilidades como una idea primitiva,  
pero tiene que suponer que los valores que sus cálcu-  
los dan a la probabilidad reflejan, de alguna manera,  
el comportamiento de los eventos... Ninguna de las  
partes puede evitar usar las ideas del otro para esta-  
blecer y justificar una teoría integral y profunda.  
Box (1980) identifica dos componentes en el modelado esta-  
dístico: crítica y estimación. A partir de (27), Box usaría la dis-  
tribución a posteriori de θ para la estimación, pero la distribución  
Referencias  
predictiva  
Z
Abril, J. C. (1999), Análisis de Series de Tiempo Basado en Mo-  
delos de Espacio de Estado, EUDEBA: Buenos Aires.  
f(x) = p(θ)L(x |θ)dθ  
(47)  
Abril, J. C. (2004). Modelos para el Análisis de las Series de  
Tiempo. Ediciones Cooperativas: Buenos Aires.  
para la crítica de modelos. Aunque f(x) se deriva bajo el su-  
puesto de que la distribución a priori p(θ) está disponible, Box  
recomienda procedimientos frecuentistas para la parte crítica del  
proceso de modelado. Esto es similar en espíritu a los comenta-  
rios de Durbin dados anteriormente.  
Abril, J. C. y Abril, M. de las M. (2018). Métodos Modernos de  
Series de Tiempo y sus Aplicaciones. Editorial Académica  
Española: Saarbrücken (Alemania).  
Giere (1977) distinguió entre test e información en la inferen-  
cia estadística, sugiriendo que el criterio de información permite  
una medida directa de evidencia para una hipótesis para que se  
pueda invocar el enfoque Bayesiano. En el marco de los tests, no  
existe tal medida, como señalaron muchos escritores frecuentis-  
tas desde Neyman y Pearson en adelante. Gieres continúa argu-  
mentando a favor de la probabilidad como una medida de pro-  
pensión que permitiría hacer afirmaciones para experimentos in-  
dividuales.  
Barnett, V. D. (1982). Comparative Statistical Inference, 2nd  
edition. Wiley: Chichester.  
Bayes, T. (1764). An essay towards solving a problem in the  
doctrine of chances. Phil. Trans., 53, 370. (Reproducido en  
Biometrika, 45, 293 (1958), editado e introducido por G. A.  
Barnard).  
Bernardo, J. M. (1980). A Bayesian analysis of classical hy-  
pothesis testing. In Bayesian Statistics: Proceedings of the  
https://doi.org/10.5281/zenodo.8205883  
81  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
first International Meeting. Valencia Univ. Press: Valencia,  
Spain.  
Good, I. J. (1950). Probability and the Weighing of Evidence.  
Griffin: London.  
Birnbaum, A. (1977). The Neyman-Pearson theory as decision  
theory, and as inference theory; with a criticism of the  
Lindley-Savage argument for Bayesian theory. Synthèse,  
Good, I. J. (1976). The Bayesian influence, or how to sweep  
subjectivism under the carpet. In Foundations of Probabi-  
lity Theory, Statistical Inference and Statistical Theories of  
Science, Vol. 2. C. A. Hooker and W. Harper (eds.). Reidel:  
Dordrecht, Holland, 125.  
3
6, 19.  
Blackwell, D. and Girshick, M. A. (1954). Theory of Games and  
Statistical Decisions. Wiley: New York.  
Good, I. J. (1983). Good Thinking: The Foundations of Probabi-  
lity and its Applications. U. Minnesota Press: Minneapolis.  
Box, G. E. P. (1980). Sampling and Bayes inference in scienti-  
fic modeling and robustness (with discussion). J. R. Statist.  
Soc., A, 143, 383.  
Good, I. J. (1988). The interface between statistics and philo-  
sophy of science. Statist. Sci., 3, 386.  
Howson, C. and Urbach, P. (1989). Scientific Reasoning: The Ba-  
yesian Approach. Open Court: La Salle, Illinois.  
Carnap, R. (1962). Logical Foundations of Probability. 2nd. edi-  
tion. Univ. of Chicago Press: Chicago.  
Jeffreys, H. (1961). Theory of Probability, 3rd. edn. Oxford Uni-  
Cox, D. R. y Hinkley, D. V. (1974). Theoretical Statistics. Chap-  
versity Press: Oxford.  
man and Hall: London.  
Johnstone, D. J. (1989). On the necessity for random sampling.  
Brit. J. Phil. Sci., 40, 443.  
Kendall, M. G. (1949). On the reconciliation of theories of pro-  
bability. Biometrika, 36, 101.  
Keynes, J. M. (1921). A Treatise on Probability. Macmillan:  
Dawid, A. P. (1984). Present position and potential develop-  
ments: some personal views. Statistical theory, the frequen-  
tial approach (with discussion). J. R. Statist. Soc., B, 49, 1.  
De Groot, M. H. (1970). Optimal Statistical Decissions.  
McGraw-Hill: New York.  
London.  
Diaconis, P. y Freedman, D. A. (1986a). On the consistency of  
Kuhn, T. S. (1970). The Structure of Scientific Revolutions. 2nd.  
Bayes estimates (with discussion). Ann. Statist., 14, 1.  
edition. Univ. of Chicago Press: Chicago.  
Diaconis, P. y Freedman, D. A. (1986b). On inconsistent Bayes  
Lakatos, I. (1974). Falsification and the methodology of scien-  
tific research programs. In Criticism and the Growth of  
Knowledge, I. Lakatos and A. E. Musgrave (eds.). Cambrid-  
ge Univ. Press: Cambridge, 91.  
estimates of location. Ann. Statist., 14, 68.  
Diaconis, P. y Zabell, S. L. (1982). Updating subjective probabi-  
lity. J. Amer. Statist. Ass., 77, 822.  
Durbin, J. (1988). Is a philosophical consensus for statistics at-  
Lindley, D. V. (1958). Fiducial distributions and Bayes’ Theo-  
tainable? J. Econometrics, 37, 51.  
rem. J. R. Statist. Soc., B, 20, 102.  
Edwards, A. W. F. (1972). Likelihood. Cambridge Univ. Press:  
Lindley, D. V. (1971). Bayesian Statistics Review. S.I.A.M.: Phi-  
Cambridge.  
ladelphia.  
Edwards, A. W. F. (1974). The history of likelihood. Int. Statist.  
Rev., 42, 9.  
Lindley, D. V. y Smith, A. F. M. (1972). Bayesian estimates for  
the linear model. J. R. Statist. Soc., B, 34, 1.  
Maritz, J. S. y Lwin, T. (1989). Empirical Bayes Methods. 2nd  
Efron, B. (1982). Maximum likelihood and decision theory. Ann.  
Statist., 10, 341.  
edition. Chapman and Hall: London.  
Miller, D. (1990). A restoration of Popperian inductive scepti-  
Ferguson, T. S. (1967). Mathematical Statistics: A Decision  
Theoretic Approach. Academic Press: New York.  
cism. Brit. J. Phil. Sci., A, 147, 389.  
Naylor, J. C. y Smith, A. F. M. (1988). Econometric illustrations  
of novel numerical integration strategies for Bayesian infe-  
rence. J. Econometrics, 38, 103.  
Neyman, J. (1962). Two breakthroughs in the theory of statistical  
decision making. Rev. Int. Statist. Inst., 30, 11.  
Popper, K. R. (1968). The Logic of Scientific Discovery. Hutchin-  
Fishburn, P. C. (1986). The axioms of subjective probability. Sta-  
tist. Sci., 1, 335.  
Fisher, R. A. (1956). Statistical Methods and Scientific Inference.  
Oliver and Boyd: Edinburgh.  
Gemes, K. (1984). A refutation of Popperian inductive scepti-  
cism. Brit. J. Phil. Sci., 40, 183.  
son: London.  
Giere, R. N. (1977). Allan Birnbaum’s conception of statistical  
Popper, K. R. (1969). Conjeturas y Refutaciones. Routledge and  
evidence. Synthèse, 36, 5.  
Kegan Paul: London.  
Godambe, V. P. (1960). An optimum property of regular maxi-  
Popper, K. R. y Miller, D. (1987). A proof of the impossibility  
mum likelihood estimation. Ann. Math. Statist., 31, 1208.  
of inductive probability. Nature, 302, 687.  
Godambe, V. P. (1976). Conditional likelihood and unconditional  
Ramsey, F. P. (1926, 1931). Truth and probability. In The Foun-  
dations of Mathematics and Other Essays. Kegan, Paul  
Trench, Tubner. Reimpreso en H. E. Kyburg, Jr. y H. E.  
Smokler (eds. 1964). Studies in Subjective Probability. Wi-  
ley: New York, 61.  
estimating equations. Biometrika, 63, 277.  
Godambe, V. P. and Sprott, D. A., eds. (1971). Foundations of  
Statistical Inference. Holt, Rinehart and Winston: Toronto,  
Canada.  
https://doi.org/10.5281/zenodo.8205883  
82  
South American Research Journal, 3(1), 67-83  
https://sa-rj.net/index.php/sarj/article/view/39  
ISSN 2806-5638  
Robbins, H. (1956). An empirical Bayes approach to statistics.  
Proc. 3rd Berkeley Symp. Math. Statist. and Prob., 1, 157.  
U. California Press: Berkeley.  
Robbins, H. (1964). The empirical Bayes approach to statistical  
decision problems. Ann. Math. Statist., 35, 1.  
Savage, L. J. (1954). The Foundation of Statistics. Wiley: New  
York.  
Savage, L. J. (1961). The foundation of statistics reconsidered.  
Proc. 4th Berkeley Symp. Math. Statist and Prob., 1, 575.  
Savage, L. J. (1962). The Foundation of Statistical Inference: a  
Discussion... at a Meeting of the Joint Statistical Seminar,  
Birkbeck and Imperial Colleges, in the University of Lon-  
don. Methuen: London.  
Stone, M. (1976). Strong inconsistency from uniform priors. J.  
Amer. Statist. Ass., 71, 114.  
Thiele, T. N. (1903). Theory of Observations. Reimpreso (1931)  
en Ann. Math. Statist., 2, 165, de la versión en inglés publi-  
cada en 1903; el original (danés) apareció en 1889 y 1897.  
Wald, A. (1950). Statistical Decision Functions. Wiley: New  
York.  
https://doi.org/10.5281/zenodo.8205883  
83