No Bayesian Choice.


From: <Deleted>
Date: Wed Oct 23 2002 - 19:47:58 CEST


... and the reader can judge whether her or his impression, after going
through the book, coincides with the points set forth below.
The Bayesian Choice, note 1 p. 508.

Cher Professeur Robert,

Depuis la fois dernière, j'ai parcouru un peu plus en détails votre
ouvrage, The Bayesian Choice, et je dois dire qu'il m'a éclairé sur bien
des points. Soyez-en remercié.

Mais en parallèle, j'en ai lu un autre qui, à vrai dire, me semble sans
aucune commune mesure. Il s'agit de Probability Theory: The Logic of
Science par E. T. Jaynes, dont on ne peut que regretter qu'il soit aux
trois quarts inachevé.

Et me voilà bien ennuyé Professeur car si on suit M. Jaynes - et en ce qui
me concerne, je considère que j'aurais passé pas moins de quatre années
uniquement pour finir par exhumer ce remarquable ouvrage qui me procure les
réponses à presque toutes les questions que je me suis posées - il convient
de considérer que vous n'êtes tout simplement pas un Bayésien ou du moins,
pour paraître moins véhément et reprendre les termes de M. Jaynes, un
Bayésien en transition ou encore selon moi un Bayésien mathématicien,
c'est-à-dire quelqu'un qui s'enfonce dans les calculs, en l'occurrence
justes, mais qui, après tout, ne sait plus vraiment pourquoi il les mène et
par conséquent ne saurait leur donner leur interprétation véritable. Telle
est non pas mon impression mais ma conviction après lecture de ces deux
ouvrages.

Je ne vais pas faire ici l'inventaire des tous ces points de désaccord.
Vous le ferez bien mieux que moi si vous lisez Probability Theory: The
Logic of Science. Juste un ou deux points essentiels qui me viennent à
l'esprit pour vous montrer l'ampleur du schisme.

La plus grave erreur dont tout le reste dépend est déjà contenue dans le
titre même de votre ouvrage, The Bayesian Choice. Certes, c'est une
position certainement plus politiquement correcte que l'affirmation
dogmatique '"Il n'y a pas de choix Bayésien!". Il n'en reste pas moins
Professeur, autant que je sache, que laisser croire qu'il puisse y avoir un
tel choix est une violation pure et dure du théorème de Richard Cox qui
nous enseigne en substance que ce prétendu choix Bayésien est en fait pour
le moins la condition sine qua non de consistance logique dans l'incertitude!

Aussi, permettez-moi de vous demander quelle(s) hypothèse(s) de ce théorème
vous semble(nt) suffisamment indésirable(s) pour que vous le rejetiez ou en
fassiez abstraction? Cf. par exemple à ce sujet l'article What is the
Plausibility of Probability? par S. Arnborg et G. Sjödin. Plus de cinquante
ans après avoir été établi, ce résultat ne semble toujours pas remis en
question.

En lieu et place de cette notion pourtant fondamentale de consistance
logique, vous introduisez celle de cohérence. Je dois avouer qu'elle ne me
semble clairement définie nulle part et que je ne l'ai pas du tout
comprise: s'agit-il en fait comme en page 7 de ladite consistance logique,
mais dans cas ce serait le comble, ou alors de quelque chose se rapprochant
de la notion introduite par M. de Finetti?

Comme l'indique le sous-titre de votre ouvrage, vous sembler vouloir baser
la Théorie des Probabilités Bayésienne non pas sur la Logique mais plutôt
sur la Théorie de la Décision. Je dois vous avouer que je ne vois pas une
seconde comment la Théorie de la Décision pourrait fonder la Théorie des
Probabilités, étant donnée qu'elle lui est tout simplement extérieure. De
plus, comme l'a remarqué M. Jaynes, si l'on peut actuellement reprocher à
la Théorie des Probabilités de ne pas disposer de moyen générique pour
assigner les probabilités a priori (point i) p. 514), force est de
constater qu'on dispose encore moins de moyens pour choisir les fonctions
de coût (ce que vous ne prenez pas la peine de faire remarquer si je ne
m'abuse). Lorsque M. de Laplace affirmait que la Théorie des Probabilités
n'est que bon sens fait calcul, voulait-il dire que c'est l'outil
permettant de prendre des décisions ou plutôt qu'il s'agit avant tout
d'être logique surtout lorsqu'on est un aussi éminent scientifique?

Ne pas reconnaître la nécessité et le fondement logique de la Théorie des
Probabilités (Bayésienne), c'est évidemment la porte ouverte à tous les
illogismes et les faux problèmes. Il en va ainsi de votre chapitre consacré
à défendre ce prétendu "choix Bayésien": étant donné qu'il n'y a tout
simplement rien à défendre (mis à part éventuellement les hypothèses et la
démonstration du théorème de Cox) et que vous ne voyez pas le fond du
problème, vous partez forcément dans des considérations fallacieuses.

Par exemple, ne dites vous pas en page 509 que "The basis of statistical
inference is fundamentally an inversion process, since it aims at deriving
effects from causes...". Si dans la pratique nombreux sont les cas ou il
s'agit effectivement de passer de la probabilité des effets à celle des
causes, il n'en reste pas moins que la Théorie des Probabilités traite
généralement d'évènements logiquement reliés et non pas forcément
causalement. C'est bien le cas dans les tirages sans remise où un évènement
ultérieur peut influer sur la probabilité d'un évènement antérieur... Sans
parler des problèmes inférentiels où il n'y a même pas de données (e.g. the
widget problem de Jaynes) et donc pas de règle de Bayes!

Votre position sur le féquentisme est complètement déconcertante et je
doute qu'un quelconque lecteur puisse s'en accommoder: si vous affirmez en
page 508 "the nonrepeatability of most experiments" à quoi bon ensuite
"looking for optimal fequentist procedures" en page 512? Si la plupart des
problèmes ne peuvent donc pas être traités par les procédures
fréquentistes, comment le "choix Bayésien", qui se veut être le paradigme
pour tout problème inférentiel, n'est-ce pas, peut-il se baser sur une
réconciliation avec le fréquentisme (p. 517-518)? Pourquoi ne pas dire une
fois pour toute qu'une probabilité n'est jamais une fréquence! Que le
fréquentisme est en fait une grave erreur qui a nui et nuit toujours au
progrès scientifique? Sir Jeffreys (1939) l'avait me semble-t-il pourtant
clairement précisé: The essence of the present theory is that no
probability, direct, prior or posterior, is simply a frequency. Les cas les
plus intéressants ne sont-ils pas justement ceux où par exemple
l'Estimateur du Maximum de Vraisemblance est en total désaccord avec
l'Estimateur de Bayes? Jaynes fournit un example qui m'a frappé: "Une
source radioactive émet en moyenne disons 100 particules par seconde. On la
place dans un détecteur qui détecte disons 1 particule sur 10. En une
seconde, on mesure 15 détections. Combien de particules la source a-t-elle
émises?". Le MLE donne 150 alors que l'Estimateur de Bayes sous coût
quadratique, 105. Comment réconcilier les deux réponses? Pourquoi diable le
vouloir alors qu'on sait la première inconsistante par théorème de Cox?

De même vous affirmez en p. 512 que "Therefore, [the Likelihood Principle]
should always direct the choice of estimation procedures, adding a
desirable property to those already discussed in point 6). The Bayesian
paradigm provides an implementation technique for this principle...".
Ainsi, constatant que ce principe se base lui-même sur les principes de
Suffisance et de "Conditionalité" que vous semblez trouver logiques et
désirables, vous en arrivez à vouloir justifier le "choix Bayésien" par des
principes fréquentistes pourtant ad hoc! Le paradigme Bayésien ne fournit
pas une implémentation de ces principes. Si ceux-ci sont automatiquement
satisfaits par la règle de Bayes et sont à vrai dire triviaux, de sorte
qu'il n'est même pas la peine d'en parler, c'est seulement que ceux-ci ne
sont a posteriori fort heureusement pas complètement dénués de bon sens
(logique), mais seulement des tentatives pour pallier le manque de
fondation fréquentiste, ce qui est d'ailleurs vain.

Cette confusion provient certainement du fait qu'à nouveau vous rejetez
et/ou ommettez la signification logique des probabilités, en particulier
les probabilités a priori: the choice of a prior distribution pi does not
require any kind of belief in this distribution. It is actually rare to
have a completely specified priori distribution, the original example of
Thomas Bayes being, paradoxically, an exceptional counter-example where a
physical knowledge of the experiment leads to the construction of the prior
distribution. In general pi should rather be considered either a tool that
provides a single inferential procedure with acceptable frequentist
properties, or a way to summarize the available prior information and the
uncertainty surrounding this information (p. 510). Professeur,
pourriez-vous tout d'abord me donner un seul problème d'inférence
statistique qui ne soit pas physique (au sens large du terme; i.e.
biologique, chimique...)? Comment M. Bayes contait-il s'y prendre pour
lancer une boule de billard de sorte qu'elle s'arrête uniformément?
Avait-il construit une machine à ces fins? C'est plutôt cela qui me
paraîtrait exceptionnel. Quel rapport avec un lancer de boule véritable?
Tout au contraire, les cas d'école - puisque vous considérez que celui de
Bayes n'en est pas un - tels que "tirer à pile ou face" ou "lancer un dé",
cas qu'il conviendrait déjà de bien assimiler avant que de passer à des
problèmes plus ardus où l'élicitation des a priori peut être effectivement
délicates, ne sont-ils pas des exemples du même acabit et tout ce qu'il y a
de commun?

Et la question fondamentale n'est-elle pas "Quand je lance une pièce en
l'air, que je demande à une personne quelle est la probabilité qu'elle
retombe sur face et qu'elle me répond 1/2, que veut-elle dire et pourquoi
le dit-elle?". Et la bonne réponse n'est-elle pas "Cette personne signifie
qu'elle ne sait rien de cette pièce, pas plus comment je vais la lancer et
sur quoi elle retombera." en lieu et place que de supposer arbitrairement
qu'en la lançant maintes fois, elle retombera à peu près autant de fois sur
pile ou face, ce que vous ne vous décidez pas à rejeter une fois pour toute
(bien entendu, on peut tricher à pile ou face et obtenir des fréquences
quelconques!).

Le Principe du Maximum d'Entropie est lui absolument fondamental étant
donné qu'il est nécessaire et suffisant pour régler ces cas d'école et que
par conséquent il procure dans ces cas la signification véritable des
probabilités a priori. Quand on sait qu'il permet ensuite d'unifier Théorie
de l'Information, Mécanique Statistique, Thermodynamique... Dommage que
vous ne lui consacriez qu'une page et surtout que vous le présentiez avant
le Principe de Raison Insuffisante/d'Indifférence dont il est pourtant
l'extension. Dommage que vous ne consacriez que deux lignes pour dire que
la loi normale est la distribution du Maximum d'Entropie à espérance et
variances fixées, alors que cela explique a posteriori les travaux de
personnages tels que Gauss, Laplace, de Moivre, Herschel, Maxwell, Galton,
Barnard, etc., c'est-à-dire deux siècles de science environ Dommage que
vous n'insistiez pas sur le fait qu'en matière d'inférence, la distribution
d'échantillonnage est la plupart du temps hors sujet, mais il est vrai que
ce ne serait pas du goût d'un fréquentiste.

Bref, je doute qu'après lecture de votre ouvrage, le lecteur soit vraiment
avancé quant à la notion de probabilité, de fonction de vraisemblance et
au-delà quant à la Logique de la Science. On pourrait même aller jusqu'à
croire que laisser les gens dans les ténèbres est voulu, de sorte à
pérenniser la relation client-fournisseur entre scientifiques et
statisticiens:

Whenever a real scientific problem arose that was not covered by the
published recipes, the scientist was expected to consult a professional
statistician for advice on how to analyze his data, and often on how to
gather them as well. There developed a statistician-client relationship
rather like the doctor-patient one, and for the same reason. If there are
simple unifying principles (as there are today in the theory we are
expounding), then it is easy to learn them and apply them to whatever
problem one has; each scientist can become his own statistician. But in the
absence of unifying principles, the collection of all the empirical,
logically unrelated procedures that a data analyst might need, like the
collection of all the unrelated medicines and treatments that a sick
patient might need, was too large for anyone but a dedicated professional
to learn.

En résumé, Professeur, la situation est la suivante: j'ai passé quatre
années de ma vie, seul et dans des conditions défavorables, pour tenter de
résoudre un problème d'inférence statistique d'ordre pratique. Et
finalement, j'ai compris que ce qui me faisait défaut n'était ni plus ni
moins que la Logique de la Science. L'immensité de la lacune par trop
commune et le fait d'avoir appris à la place aussi bien à l'école que par
moi-même des sottises fréquentistes était déjà dur à avaler. Puis je lis
votre ouvrage et malheur, je vois qu'on continue à faire fondamentalement
les même erreurs au sein même de la communauté Bayésienne - si je ne
m'abuse, vient de paraître un ouvrage Méthodes Bayésiennes en Statistique
du même acabit, dont vous êtes coauteur je crois. Une fois de plus la
Logique de la Science n'est pas un choix ni "une méthode qui complète
utilement la méthode inférentielle classique". J'y trouverai certainement
nombre de résultats mathématiques utiles mais jamais pourquoi ce sont
ceux-là qui importent. Aucun des vrais principes - .

Si j'avais lu votre ouvrage avant la Logique de la Science, la situation
n'aurait fait qu'empirer, puisque je cherchais justement des arguments
irrévocables pour arrêter mon "choix", alors qu'il participe en fait un peu
plus à plonger le lecteur non averti dans l'obscurantisme, les ténèbres
fréquentistes étant déjà largement suffisantes.

Je me retrouve donc dans une situation pour le moins ubuesque: je ne suis
en théorie qu'un ingénieur et par conséquent ne devrais pas être préoccupé
par ce genre de choses, mais n'en suis-je pas à écrire à d'éminents
professeurs pour leur signifier qu'ils sont à côté de la plaque, si vous me
permettez l'expression, et qu'il n'est d'ailleurs jamais trop tard pour
rectifier le tir?

Autant vous dire que cette situation est très difficile à vivre
psychologiquement: je ne sais plus du tout quoi faire Professeur. Sois je
tâche de faire une croix sur cette aventure, mais c'est certainement contre
(ma) nature, sois au contraire je me consacre uniquement à tâcher de
propager la Logique de la Science, soit encore M. Jaynes est en fait dans
l'erreur est dans ce cas j'aimerais encore bien savoir pourquoi. La moindre
des choses que je pourrais faire serait de traduire Probability Theory: the
Logic of Science en Français. Ce ne serait, après tout, que la monnaie de
la pièce de M. de Laplace.

Je vous serai donc extrêmement reconnaissant Professeur si vous pouviez,
d'une manière ou d'une autre, m'éclairer sur cette problématique. Il s'agit
tout de même d'une controverse vielle de deux siècles dont l'enjeu n'est
pas moins que la démarche scientifique!

S'agit-il tout simplement d'une omission de votre part - puisque vous ne
citez pas Probability Theory: The Logic of Science ou encore Probability as
Logic en références - que vous seriez prêt à combler lors d'une prochaine
édition, ou alors estimez-vous qu'il y a de sérieux problèmes dans la
théorie de MM. Cox, Polyà et Jaynes? Si c'est le cas pourriez-vous m'en
faire part s'il vous plaît?

Je crois savoir qu'il y a bien des "Jaynésiens" en France, en particulier
au laboratoire Leibniz/Laplace à Grenoble. Pourriez-vous me dire
généralement quelle est la proportion actuelle de Jaynésiens au sein de la
communauté Bayésienne et celle des personnes, telles que vous ou M. Berger
qui semblez vouloir la fonder sur la Théorie de la Décision? M. Jaynes
est-il voué, comme je le crois, à passer à la posterité en ayant mis fin à
cette trop vieille controverse?

Je vous prie d'agréer Professeur, l'expression de mes salutations distinguées.