Le séminaire Parisien de
Statistique reprend ses
activités à partir du 22 Novembre 2004. Comme l'an
dernier, nous espérons
une participation réguliere à toutes les séances
de l'année. Les séminaires de
l'année 2004-2005 sont programmés aux dates suivantes :
Le lundi 22 novembre de 14h à 17h, Amphi Darboux [programme]
Le lundi 13 décembre de 14h à 17h, Amphi Darboux [programme]
Le lundi 17 janvier de 14h à 17h, Amphi Darboux [programme]
Le lundi 14 février de 14h à 17h [programme]
Le lundi 14 mars de 14h à 17h [programme]
Le lundi 18 avrilde 14h à 17h
Le lundi 23 mai de 14h à 17h
14h-14h45 Jean Jacod
(Université
Paris 6).
"Estimation d'un paramètre
multiplicatif pour un processus de Lévy"
Résumé: On observe un processus de Lévy $X$ en $n$
instants $\Delta_n$,
$2\Delta_n$,..., $n\Delta_n$, et on veut estimer les
paramètres
$\sigma$ et $\theta$, ou l'un de
ces deux paramètres seulement, lorsque $X$ est de la forme
$X=\sigma W+\theta
Y$, avec $W$ un processus stable symétrique standard d'indice
$\alpha$ (par exemple,
un brownien) et $Y$ est un autre processus de Lévy, de loi
connue, ou de loi
inconnue lorsqu'on ne veut estimer que $\sigma$.
Ce
problème semble
élémentaire, et il l'est effectivement quand
$\Delta_n=\Delta$ ne dépend pas de
$n$. Les choses sont plus compliquées lorsque $\Delta_n\to0$,et
on énoncera
quelques résultats partiels, parfois étonnants, et aussi
une série de problèmes
ouverts.
15h-15h45
Arnak Dalalyan (Université Paris 6).
"Equivalence asymptotique pour le
modèle de diffusion ergodique avec un drift inconnu"
Résumé : Le but de cet exposé est de présenter certains résultats concernant l’équivalence asymptotique au sens de la distance de Le Cam pour l’expérience de diffusion avec un drift inconnu. Dans un premier temps, l’équivalence des observations en temps continu et en temps discret (à haute fréquence) sera considérée. Dans un deuxième temps, l’équivalence locale entre le modèle de diffusion ergodique et un modèle du bruit blanc gaussien sera présentée. La méthode constructive de passage de l’expérience gaussienne à l’expérience de diffusion sera détaillée.
16h10-16h55 Brunero Liseo (Università di
Roma, Italy )
"Regression
for Linked Data "
Abstract : Record linkage refers to the use of an algorithmic technique to match records from different data sets that correspond to the same statistical unit, but lack unique personal identification code. In general, the mergin of two (or more) data-bases can be important for two reasons. Firstly, per sé, i.e. to obtain a larger and richer data-file. Secondly, to perform subsequent statistical analyses, based on information, which is not simultaneously present in both files. In this talk we will propose a Bayesian approach particularly suited for this latter case and compare it with the existing approaches.
lundi 14
février 2005
Institut
Henri Poincaré, amphithéatre Darboux
11 rue Pierre et
Marie Curie, 75005
Paris
14h-14h45 Catherine Matias
(Laboratoire Statistique et Génome, Evry)
"Estimation du nombre
d'états cachés et de la mémoire d'un
processus auto-régressif à régimes markoviens."
Résumé:
Cet exposé présente un problème d'estimation de
l'ordre bidimensionnel d'un
modèle, dans un cadre de familles non emboîtées.
Nous considérons des processus
auto-régressifs à régimes markoviens qui sont en
fait une généralisation des
chaînes de Markov cachées, prenant en compte une
mémoire des observations
conditionnelle aux régimes. Nous cherchons à estimer dans
ces modèles à la fois
le nombre k de régimes cachés mais aussi la
mémoire m des observations
conditionnelle aux régimes.
Une
des difficultés réside dans l'aspect non
emboîté de ces différents modèles.
Après avoir introduit la notion de "vrai ordre" d'un
modèle, nous
exhibons des estimateurs de type maximum de vraisemblance
pénalisée ou de type
bayésien et nous prouvons leur consistance presque sûre,
sans hypothèse de
borne a priori sur le nombre de modèles. Nous discuterons
également le problème
des vitesses de sur et de sous estimation de l'ordre.
15h-15h45
Rama Cont (CMAP-CNRS, Ecole Polytechnique)
"Estimation
de processus de Lévy à
partir de prix d'options: régularisation d'un problème
inverse non-linéaire"
Résumé
: Afin de palier aux insuffisances empiriques des modèles de
diffusion en
finance, de nombreux modèles d'évaluation d'options
basés sur les processus de
Lévy - processus stochastiques discontinus à
incréments IID- ont été proposés
dans la litérature. L'identification de ces processus à
partir des prix
d'options conduit à un problème inverse
non-linéaire. Ce problème est mal
posé, ce qui conduit à des
problèmes de non-existence de solution, instabilité ou
manque de convergence
pour les méthodes de moindres carrés, utilisées
souvent dans ce contexte.
Nous
proposons une méthode non-paramétrique, basée sur
une régularisation par
l'entropie relative par rapport à un processus a priori. Nous
montrons
l'existence d'une solution, sa stabilité par rapport aux
données observées
ainsi que par rapport à la loi a priori et sa convergence
lorsque le niveau de
bruit d'observation tend vers zéro. Nous discutons ensuite
l'implémentation de
l'algorithme, en particulier le choix du paramètre de
régularisation.
Nous
appliquons ensuite cette méthode sur des données
simulées et réelles ce qui
permet d'obtenir des informations sur l'intensité et la taille
des sauts
implicites dans les prix d'options.
16h10-16h55
Randal Douc
(CMAP-CNRS,
Ecole Polytechnique)
"Convergence
of adaptive sampling scheme"
Abstract: In the design of efficient
simulation algorithms, one is often beset with a poor choice of
proposal
distributions. Although the performances of a given kernel can clarify
how
adequate it is for the problem at hand, a permanent on-line
modification of
kernels causes concerns about the validity of the resulting algorithm.
While
the issue is quite complex and most often untractable for MCMC
algorithms, the
equivalent version for importance sampling algorithms can be validated
quite
precisely. We derive sufficient convergence conditions for a wide class
of
population Monte Carlo algorithms and show that Rao--Blackwellized
versions
asymptotically achieve an optimum in terms of a Kullback divergence
criterion,
while more rudimentary versions simply do not benefit from repeated
updating.
lundi 17 janvier 2005
Institut
Henri Poincaré, amphithéatre Darboux
11 rue Pierre et
Marie Curie, 75005
Paris
"Analysis
and inference of gene networks from genomic data"
Resumé: I will present a general framework and
algorithms to infer gene networks from heterogeneous genomic data, such
as gene
expression and sequences. The approach assumes that part of the network
is
known, and learns an embedding of the genes into a Euclidean space
where the
structure of the networks becomes easier to infer. The learning is
based on the
theory of reproducing kernel Hilbert spaces, that has been popularized
recently
in the machine learning community thanks to the support vector
machines. I will
present encouraging experimental results for the inference of the
metabolic
network of the yeast S. cerevisiae.
"Linear
Inverse Problems in Econometrics"
Resumé: This paper provides an
introduction to the estimation of the solution of inverse problems.
First, we
will discuss integral equations of the first kind. Solving these
equations is
particularly challenging as the solution does not necessarily exist,
may not be
unique, and is not continuous. As a result, a regularized (or smoothed)
solution needs to be implemented. We review different regularization
methods
and study the properties of the estimator.Then, we provide several
examples
where integral equations of the first kind appear: the nonparametric
estimation
of the density, the deconvolution problem, the estimation of
semiparametric
instrumental variable regressions, and the generalized method of
moments when
the number of moment conditions is infinite. (Joint work with
Jean-Pierre
Florens and Eric Renault)
"Complexity
regularization for
non-linear inverse problemes"
Resumé:
L'objectif de notre travail est d'étudier des méthodes
d'estimation par M-estimation pénalisée pour des
problèmes inverses en
statistique. Plus précisement, dans le cadre suivant
$$y_i=A(x_0)[t_i]+\epsilon_i,\: i=1,\dots,n $$ nous cherchons à
estimer la fonction
$x_0$ en minimisant un contraste empirique $\gamma_n(.)$ et une
pénalite
portant sur la complexité de la fonction $$\hat{x}_n={\rm
arg}\min_{x \in
\mathbb{X}} \left(\gamma_n(y-A(x)[.]) + \alpha_n^2 {\rm pen}(x)
\right)$$ Cette
complexité peut-être soit sa régularité
(nous obtenons ainsi des estimateurs
regularisés du type Tikhonov), soit la dimension de l'espace
auquel appartient
la fonction (dans ce cas la méthodologie s'apparente aux
techniques de
sélection de modèles). Nous obtenons ainsi une
méthode d'estimation adaptative
et nous donnons les vitesses de convergence des estimateurs
considerés lorsque
l'opérateur $A$ n'est pas linéaire.
lundi 13
decembre 2004
Institut
Henri Poincaré, amphithéatre Darboux
11 rue Pierre et
Marie Curie, 75005
Paris
"Estimation
of partially observed semi-Markov jump processes"
Resumé: A semi-Markov jump process is
characterized by the transition probabilities between states and the
distribution functions of the duration times between the transitions.
We
present product- limit estimators of the distribution functions when n
i.i.d.
sample paths of process are partially observed. They are maximum
likelihood
estimators, consistent, asymptotically Gaussian and unique solutions of
self-consistency equations, which provides additive expressions of the
esti-
mator. Models with covariates are also studied.
"Distance
entre une loi de mélange et sa loi parente"
Resumé: De
nombreux auteurs ont exprimé la
densité d'un mélange de lois en fonction de la
densité de la loi initiale. Les
travaux les plus nombreux concernent les mélanges
d'échelles (scale mixtures).
Nous proposons ici d'étudier deux autres types de
mélanges. D'une part
des mélanges portant sur le paramètre de convolution.
D'autre part des mélanges
portant sur le paramètre de la moyenne. Une expression de la
densité de mélange
est obtenue en utilisant différentes bases de
polynômes. On étudie
alors les distances (L1, L2, fonctions de
répartition) entre le
mélange et sa loi parente. On étudie également des
approximations plus fines de
la densité du mélange.
"Inégalités
de transport et concentration de processus
empirique"
Resumé:
lundi 22 novembre 2004
Institut
Henri Poincaré, amphithéatre Darboux
11 rue Pierre et
Marie Curie, 75005
Paris
· 14h-14h45
Jon
Wellner (University of Washington, visiting Vrije Universiteit,
Amsterdam)
"Estimation
under shape constraints: monotone, convex, and beyond "
Resumé: n this talk I will
consider estimation of an unknown density function f
under shape
constraints from a mixture model perspective.Let k be a
non-negative integer and let G be a distribution
function on
(0,\infty). Then
f(x) = \int_0^{\infty} \frac{k}{y^{k}} (y-x)^{k-1}
1_{[0,y]} (x) d G(y)
is monotone
(decreasing) when k=1, g is convex and
decreasing
when k=2, and higher values of k
correspond to
densities which are k times differentiable with
derivatives of
alternating sign. When k\rightarrow \infty, the
limiting
form of the family is
f(x) =
\int_0^{\infty}
\frac{1}{y} \exp(-x/y) d G(y)
corresponding
to a {\sl completely monotone} density. I will discuss what is known
concerning
maximum likelihood estimation of f and the mixing
distribution G
when k=1, k=2, and k=\infty, and then
discuss
current work connected with the cases 3 \le k < \infty.
Splines
and a particular Hermite interpolation problem begin to play a role.
15h-15h45
Guido Consonni (Universita di Pavia)
"REFERENCE
ANALYSIS FOR DISCRETE GRAPHICAL MODELS"
Resumé: Graphical
models have become increasingly popular in recent years. In particular
discrete
graphical models, also called Bayesian networks, have experienced a
great
success, especially in the area of probabilistic expert systems.
In many applied contexts, a discrete graphical model is a multi-way
contingency
table whose cell-probabilities obey some functional constraints imposed
by the
conditional independence structure embodied in the graph. For
decomposable
graphs, a notable prior distribution is represented by the
hyper-Dirichlet;
often, however, it is very difficult to elicit subjectively a complex
multivariate distribution to perform Bayesian analysis. Hence the need
for
default distributions, such as the Jeffreys or reference prior, that
are
model-intrinsic and do not require any prior elicitation.
Given an arbitrary decomposable discrete graphical model under
multinomial
sampling, we rewrite the joint distribution of the observations in a
natural
exponential family form, using a general and powerful notation, based
on
subsets of cliques and separators in the underlying graph, to index
both
canonical statistics and
parameters. Next, we devise a "mixed" parametrization, in terms of
suitable "mean" and "canonical" parameters, that induces a
block-diagonal structure for the Fisher-information matrix. The latter
represents the building block to obtain the Jeffreys' as well as the
reference
prior on the parameters of the graphical model.
Some properties of these priors are investigated. Further potential
applications of the notation and methodology employed in the paper will
be
outlined. This work is based on a common research project with Alberto
Roverato
(University of Modena and Reggio Emilia) and Valentina Leucari
(University of
Pavia).
· 16h10-16h55
Peter Müller (Anderson Cancer Research Center, Austin)
"Semiparametric
Bayesian Inference for Multilevel Repeated Measurement Data"
Résumé
: We
consider semiparametric Bayesian inference for data with repeated
measurements
at multiple levels. We develop models for two specific data
formats:
longitudinal data with continuous outcomes and longitudinal data with
binary
outcomes. Both models include a nested repeated measurement structure,
with
repeated measurements at nested levels of experimental units. The
motivating example are bloodcounts for chemotherapy patients. Repeated
measurements occur at two levels. Each patient is observed over
multiple
cycles, and within each cycle, measurements are recorded over
time. The
main inference goal is learning about treatment effects and
prediction. Dependence
across repeated measurements is important to the extent that
appropriate
modeling of dependence across the repeated measurements impacts the
desired
inference. Another typical example are data on baseball players
with
observations arising as a sequence of binary outcomes representing
individual
games. Recording data over multiple seasons defines a second level of
repetition. The proposed modeling approach includes a
nonparametric prior
for the subject specific random effects distribution.
Comité d'organisation:
Université d'Evry (Philippe
Soulier), ENST (Eric
Moulines), Université Paris I (Jean-Marc Bardet),
CREST (Judith
Rousseau, Patrice Bertail),
Universités Paris X (Karine
Tribouley, Gerard
Kerkyacharian, Philippe Soulier), Paris VII (Dominique Picard,
Olivier
Catoni), Paris-Sud (Elisabeth Gassiat),
Paris Dauphine (Christian
P. Robert), Paris V (Jean Michel Poggi , Valentine Genon
Catalot), Inra-Biométrie (Catherine
Laredo), Universités de Cergy (Paul Doukhan),
Créteil (Sylvain
Delattre), Paris VI (Emmanuel Guerre), Versailles
(Emmanuel
Rio), ENS Ulm (Patricia Reynaud-Bouret) , Université de Marne-La-Vallée (Marc
Hoffmann).