Nous étudions les résultats des élections présidentielles 2017 par département. Ces données sont librement téléchargeables sur le site http://data.gouv.fr/fr/posts/les-donnees-des-elections/. Nous commençons par charger les données dans R et charger les packages.
library(readr)
library(FactoMineR)
Presidentielle_2017_Resultats_Communes_T1_clean <- read_csv("Presidentielle_2017_Resultats_Communes_T1_clean.csv")
colnames(Presidentielle_2017_Resultats_Communes_T1_clean)[20] <- "MELENCHON" # pour resoudre un probleme lie a l'accentuation du E
donnees_var <- Presidentielle_2017_Resultats_Communes_T1_clean[,c('Abstentions','Blancs','Nuls','LE PEN','MELENCHON','MACRON','FILLON','LASSALLE','DUPONT-AIGNAN','HAMON','ASSELINEAU','POUTOU','ARTHAUD','CHEMINADE')]
departements <- factor(Presidentielle_2017_Resultats_Communes_T1_clean$Département)
donnees_elections <- matrix(NA,nlevels(departements),ncol(donnees_var))
# agrégation des données par département
for (j in 1:nlevels(departements)){
dep = levels(departements)[j]
donnees_elections[j,] <- colSums(donnees_var[departements==dep,])
}
donnees_elections <- data.frame(donnees_elections,row.names = levels(departements))
colnames(donnees_elections) <- colnames(donnees_var)
Nous commençons par réaliser un test du \(\chi^2\) pour vérifier la dépendance entre les deux variables. On commence par réaliser une test du \(\chi^2\) pour s’assurer qu’il y a bien une dépendance significatives entre les lignes et les colonnes du tableau.
chisq.test(donnees_elections)
##
## Pearson's Chi-squared test
##
## data: donnees_elections
## X-squared = 3630539, df = 1365, p-value < 2.2e-16
On réalisera ensuite une AFC sur le tableau obtenu.
res.CA <- CA(donnees_elections)