Séminaire Parisien de Statistique


Le séminaire Parisien de Statistique reprend ses activités à partir du 22 Novembre 2004.  Comme l'an dernier, nous espérons une participation réguliere à toutes les séances de l'année. Les séminaires de l'année 2004-2005 sont programmés aux dates suivantes :
 
Le lundi 22 novembre de 14h à 17h, Amphi Darboux [programme]
Le lundi 13 décembre de 14h à 17h, Amphi Darboux [programme]
Le lundi 17 janvier de 14h à 17h, Amphi Darboux
[programme]
Le lundi 14 février de 14h à 17h [programme]
Le lundi 14 mars de 14h à 17h
[programme]
Le lundi 18 avrilde 14h à 17h
Le lundi 23 mai de 14h à 17h


Lundi 15 mars 2005

Institut Henri Poincaré, amphithéatre Darboux
11 rue Pierre et Marie Curie, 75005 Paris

 

14h-14h45  Jean Jacod (Université Paris 6).

 

"Estimation d'un paramètre multiplicatif pour un processus de Lévy"

 

Résumé: On observe un processus de Lévy $X$ en $n$ instants $\Delta_n$,  $2\Delta_n$,..., $n\Delta_n$, et on veut estimer les paramètres $\sigma$  et $\theta$, ou l'un de ces deux paramètres seulement, lorsque $X$ est de la forme $X=\sigma W+\theta Y$, avec $W$ un processus stable symétrique standard d'indice $\alpha$ (par exemple, un brownien) et $Y$ est un autre processus de Lévy, de loi connue, ou de loi inconnue lorsqu'on ne veut estimer que $\sigma$.

Ce problème semble élémentaire, et il l'est effectivement quand $\Delta_n=\Delta$ ne dépend pas de $n$. Les choses sont plus compliquées lorsque $\Delta_n\to0$,et on énoncera quelques résultats partiels, parfois étonnants, et aussi une série de problèmes ouverts.

 

 

15h-15h45 Arnak Dalalyan (Université Paris 6).

 

"Equivalence asymptotique pour le modèle de diffusion ergodique avec un drift inconnu"

 

Résumé : Le but de cet exposé est de présenter certains résultats concernant l’équivalence asymptotique au sens de la distance de Le Cam pour l’expérience de diffusion avec un drift inconnu. Dans un premier temps, l’équivalence des observations en temps continu et en temps discret (à haute fréquence) sera considérée. Dans un deuxième temps, l’équivalence locale entre le modèle de diffusion ergodique et un modèle du bruit blanc gaussien sera présentée. La méthode constructive de passage de l’expérience gaussienne à l’expérience de diffusion sera détaillée.

 

16h10-16h55  Brunero Liseo (Università di Roma, Italy )

"Regression for Linked Data "

Abstract :  Record linkage refers to the use of an algorithmic technique to match records from different data sets that correspond to the same statistical unit, but lack unique personal identification code. In general, the mergin of two (or more) data-bases can be important for two reasons. Firstly, per sé, i.e. to obtain a larger and richer data-file. Secondly, to perform subsequent statistical analyses, based on information, which is not simultaneously present in both files. In this talk we will propose a Bayesian approach particularly suited for this latter case and compare it with the existing approaches.




lundi 14 février 2005
Institut Henri Poincaré, amphithéatre Darboux
11 rue Pierre et Marie Curie, 75005 Paris

 

14h-14h45  Catherine Matias (Laboratoire Statistique et Génome, Evry)

 

"Estimation du nombre d'états cachés et de la mémoire d'un processus auto-régressif à régimes markoviens."

 

Résumé: Cet exposé présente un problème d'estimation de l'ordre bidimensionnel d'un modèle, dans un cadre de familles non emboîtées. Nous considérons des processus auto-régressifs à régimes markoviens qui sont en fait une généralisation des chaînes de Markov cachées, prenant en compte une mémoire des observations conditionnelle aux régimes. Nous cherchons à estimer dans ces modèles à la fois le nombre k de régimes cachés mais aussi la mémoire m des observations conditionnelle aux régimes.

Une des difficultés réside dans l'aspect non emboîté de ces différents modèles. Après avoir introduit la notion de "vrai ordre" d'un modèle, nous exhibons des estimateurs de type maximum de vraisemblance pénalisée ou de type bayésien et nous prouvons leur consistance presque sûre, sans hypothèse de borne a priori sur le nombre de modèles. Nous discuterons également le problème des vitesses de sur et de sous estimation de l'ordre.

 

 

15h-15h45 Rama Cont (CMAP-CNRS, Ecole Polytechnique)

 

"Estimation de processus de Lévy à partir de prix d'options: régularisation d'un problème inverse non-linéaire"

 

Résumé : Afin de palier aux insuffisances empiriques des modèles de diffusion en finance, de nombreux modèles d'évaluation d'options basés sur les processus de Lévy - processus stochastiques discontinus à incréments IID- ont été proposés dans la litérature. L'identification de ces processus à partir des prix d'options conduit à un problème inverse non-linéaire. Ce problème est  mal posé, ce qui conduit à des problèmes de non-existence de solution, instabilité ou manque de convergence pour les méthodes de moindres carrés, utilisées souvent dans ce contexte.

 

Nous proposons une méthode non-paramétrique, basée sur une régularisation par l'entropie relative par rapport à un processus a priori. Nous montrons l'existence d'une solution, sa stabilité par rapport aux données observées ainsi que par rapport à la loi a priori et sa convergence lorsque le niveau de bruit d'observation tend vers zéro. Nous discutons ensuite l'implémentation de l'algorithme, en particulier le choix du paramètre de régularisation.

 

Nous appliquons ensuite cette méthode sur des données simulées et réelles ce qui permet d'obtenir des informations sur l'intensité et la taille des sauts implicites dans les prix d'options.

 

 

 

16h10-16h55  Randal Douc (CMAP-CNRS, Ecole Polytechnique)

 

"Convergence of adaptive sampling scheme"

 

Abstract: In the design of efficient simulation algorithms, one is often beset with a poor choice of proposal distributions. Although the performances of a given kernel can clarify how adequate it is for the problem at hand, a permanent on-line modification of kernels causes concerns about the validity of the resulting algorithm. While the issue is quite complex and most often untractable for MCMC algorithms, the equivalent version for importance sampling algorithms can be validated quite precisely. We derive sufficient convergence conditions for a wide class of population Monte Carlo algorithms and show that Rao--Blackwellized versions asymptotically achieve an optimum in terms of a Kullback divergence criterion, while more rudimentary versions simply do not benefit from repeated updating.

 

 


lundi 17 janvier 2005
Institut Henri Poincaré, amphithéatre Darboux
11 rue Pierre et Marie Curie, 75005 Paris

"Analysis and inference of gene networks from genomic data"


Resumé:
I will present a general framework and algorithms to infer gene networks from heterogeneous genomic data, such as gene expression and sequences. The approach assumes that part of the network is known, and learns an embedding of the genes into a Euclidean space where the structure of the networks becomes easier to infer. The learning is based on the theory of reproducing kernel Hilbert spaces, that has been popularized recently in the machine learning community thanks to the support vector machines. I will present encouraging experimental results for the inference of the metabolic network of the yeast S. cerevisiae.

"Linear Inverse Problems in Econometrics"


Resumé: 
This paper provides an introduction to the estimation of the solution of inverse problems. First, we will discuss integral equations of the first kind. Solving these equations is particularly challenging as the solution does not necessarily exist, may not be unique, and is not continuous. As a result, a regularized (or smoothed) solution needs to be implemented. We review different regularization methods and study the properties of the estimator.Then, we provide several examples where integral equations of the first kind appear: the nonparametric estimation of the density, the deconvolution problem, the estimation of semiparametric instrumental variable regressions, and the generalized method of moments when the number of moment conditions is infinite. (Joint work with Jean-Pierre Florens and  Eric Renault)

"Complexity regularization for non-linear inverse problemes"

 

Resumé:  L'objectif de notre travail est d'étudier des méthodes d'estimation par M-estimation pénalisée pour des problèmes inverses en statistique. Plus précisement, dans le cadre suivant $$y_i=A(x_0)[t_i]+\epsilon_i,\: i=1,\dots,n $$ nous cherchons à estimer la fonction $x_0$ en minimisant un contraste empirique $\gamma_n(.)$ et une pénalite portant sur la complexité de la fonction $$\hat{x}_n={\rm arg}\min_{x \in \mathbb{X}} \left(\gamma_n(y-A(x)[.]) + \alpha_n^2 {\rm pen}(x) \right)$$ Cette complexité peut-être soit sa régularité (nous obtenons ainsi des estimateurs regularisés du type Tikhonov), soit la dimension de l'espace auquel appartient la fonction (dans ce cas la méthodologie s'apparente aux techniques de sélection de modèles). Nous obtenons ainsi une méthode d'estimation adaptative et nous donnons les vitesses de convergence des estimateurs considerés lorsque l'opérateur $A$ n'est pas linéaire.


lundi 13 decembre 2004
Institut Henri Poincaré, amphithéatre Darboux
11 rue Pierre et Marie Curie, 75005 Paris

"Estimation of partially  observed semi-Markov jump processes"


Resumé:
A semi-Markov jump process is characterized by the transition probabilities between states and the distribution functions of the duration times between the transitions. We present product- limit estimators of the distribution functions when n i.i.d. sample paths of process are partially observed. They are maximum likelihood estimators, consistent, asymptotically Gaussian and unique solutions of self-consistency equations, which provides additive expressions of the esti- mator. Models with covariates are also studied.

"Distance entre une loi de mélange et sa loi parente"


Resumé:
De nombreux auteurs ont exprimé la densité d'un mélange de lois en fonction de la densité de la loi initiale. Les travaux les plus nombreux concernent les mélanges d'échelles (scale mixtures). Nous proposons ici d'étudier deux autres types de  mélanges. D'une part des mélanges portant sur le paramètre de convolution. D'autre part des mélanges portant sur le paramètre de la moyenne. Une expression de la densité de mélange est  obtenue en utilisant différentes bases de polynômes. On étudie alors  les distances (L1, L2, fonctions de répartition)  entre le mélange et sa loi parente. On étudie également des approximations plus fines de la densité du mélange.

"Inégalités de transport et concentration de processus empirique"

Resumé: 


lundi 22 novembre 2004
Institut Henri Poincaré, amphithéatre Darboux
11 rue Pierre et Marie Curie, 75005 Paris

 

·  14h-14h45  Jon Wellner (University of Washington, visiting Vrije Universiteit, Amsterdam)
"Estimation under shape constraints:  monotone, convex, and beyond "

Resumé: n this talk I will consider estimation of an unknown density function f under shape constraints from a mixture model perspective.Let k be a non-negative integer and let G be a distribution function on (0,\infty). Then

f(x) = \int_0^{\infty} \frac{k}{y^{k}} (y-x)^{k-1} 1_{[0,y]} (x) d G(y)

is monotone (decreasing) when k=1, g is convex and decreasing when k=2, and higher values of k correspond to densities which are k times differentiable with derivatives of alternating sign.  When k\rightarrow \infty, the limiting form of the family is

f(x) = \int_0^{\infty} \frac{1}{y} \exp(-x/y) d G(y)

corresponding to a {\sl completely monotone} density. I will discuss what is known concerning maximum likelihood estimation of f and the mixing distribution G when k=1, k=2, and k=\infty, and then discuss current work connected with the cases 3 \le k < \infty. Splines and a particular Hermite interpolation problem begin to play a role.

15h-15h45 Guido Consonni (Universita di Pavia)
"REFERENCE ANALYSIS FOR DISCRETE GRAPHICAL MODELS"

Resumé: Graphical models have become increasingly popular in recent years. In particular discrete graphical models, also called Bayesian networks, have experienced a great success,  especially in the area of probabilistic expert systems.
                                                                                                                                                  
In many applied contexts, a discrete graphical model is a multi-way contingency table whose cell-probabilities obey some functional constraints imposed by the conditional independence structure embodied in the graph. For decomposable graphs, a notable prior distribution is represented by the hyper-Dirichlet; often, however, it is very difficult to elicit subjectively a complex multivariate distribution to perform Bayesian analysis. Hence the need for default distributions, such as the Jeffreys or reference prior, that are model-intrinsic and do not require any prior elicitation.
                                                                                                                                                  
Given an arbitrary decomposable discrete graphical model under multinomial sampling, we rewrite the joint distribution of the observations in a natural exponential family form, using a general and powerful notation, based on subsets of cliques and separators in the underlying graph, to index both canonical statistics and
parameters. Next, we devise a "mixed" parametrization, in terms of suitable "mean" and "canonical" parameters, that induces a block-diagonal structure for the Fisher-information matrix. The latter represents the building block to obtain the Jeffreys' as well as the reference prior on the parameters of the graphical model.
                                                                                                                                                  
Some properties of these priors are investigated. Further potential applications of the notation and methodology employed in the paper will be outlined. This work is based on a common research project with Alberto Roverato (University of Modena and Reggio Emilia) and Valentina Leucari (University of Pavia).

                                                                                                                                                  

 

·  16h10-16h55   Peter Müller (Anderson Cancer Research Center, Austin)
"Semiparametric Bayesian Inference for Multilevel Repeated Measurement Data"

Résumé :  We consider semiparametric Bayesian inference for data with repeated measurements at multiple levels.  We develop models for two specific data formats: longitudinal data with continuous outcomes and longitudinal data with binary outcomes. Both models include a nested repeated measurement structure, with repeated measurements at nested levels of experimental units.  The motivating example are bloodcounts for chemotherapy patients. Repeated measurements occur at two levels. Each patient is observed over multiple cycles, and within each cycle, measurements are recorded over time.  The main inference goal is learning about treatment effects and prediction.  Dependence across repeated measurements is important to the extent that appropriate modeling of dependence across the repeated measurements impacts the desired inference.  Another typical example are data on baseball players with observations arising as a sequence of binary outcomes representing individual games. Recording data over multiple seasons defines a second level of repetition.  The proposed modeling approach includes a nonparametric prior for the subject specific random effects distribution. 



Comité d'organisation:

Université d'Evry (Philippe Soulier), ENST (Eric Moulines), Université Paris I (Jean-Marc Bardet), CREST (Judith Rousseau, Patrice Bertail),  Universités Paris X (Karine Tribouley, Gerard Kerkyacharian, Philippe Soulier), Paris VII (Dominique Picard, Olivier Catoni),  Paris-Sud (Elisabeth Gassiat), Paris Dauphine (Christian P. Robert),  Paris V (Jean Michel Poggi , Valentine Genon Catalot),  Inra-Biométrie (Catherine Laredo), Universités de Cergy (Paul Doukhan), Créteil (Sylvain Delattre),  Paris VI (Emmanuel Guerre), Versailles (Emmanuel Rio), ENS Ulm (Patricia Reynaud-Bouret) , Université de Marne-La-Vallée (Marc Hoffmann).