Coupe du monde de foot : comparaison des pronostics de 4 études
La semaine dernière, j’ai publié un premier article sur la coupe du monde de foot, dans lequel je discutais des méthodes statistiques employées, par trois équipes de chercheurs, pour estimer les probabilités de victoire de chacune des nations engagées. J’avais aussi comparé brièvement les premières places de ces estimations.
Le week end dernier, j’ai regardé les premiers matchs des équipes les mieux classées par les trois études pronostiques, c’est à dire le Brésil, l’Allemagne, la France et l’Espagne. Et comme ces équipes ont été un peu décevantes (à part l’Espagne), j’ai eu envie de comparer plus en détail les résultats de ces études. D’autant plus, qu’une quatrième analyse m’a été rapportée, celle d’Andréas Groll et al.
J’ai donc compilé les probabilités de victoire de chaque pays, estimées par chacune des quatre études en question : celle d’ Achim Zeileis et al, celle d ‘Enora Belz et al, celle de Lorenz Gilch et al et celle d’ Andréas Groll et al.
Dans la suite, notamment dans les représentations graphiques, j’appelle :- “Ze”” l’étude d’Achim Zeileis et al
- “Be” l’étude d’Enora Belz et al
- “Gi” l’étude de Lorenz Gilch et al
- “Gr” l’étude d’Andréas Groll et al.
A partir des probabilités de victoire de chaque nation, j’ai calculé son classement (ou son rang). Par exemple, lorsque, dans une étude, le Brésil avait la plus forte probabilité de gagner le tournoi, je lui ai donné le rang 1, puis j’ai donné le rang 2 au pays ayant la deuxième probabilité la plus forte, etc…pour tous les pays, et pour chacune des quatre études.
J’ai ensuite comparé graphiquement les rangs de chaque nation, pour chaque équipe de pronostiqueurs, pour voir les nations qui font consensus et celles pour qui les études divergent davantage :
Sur ce graph, on voit bien que les quatre études sont plutôt d’accord sur le classement des 6 premières nations, c’est-à-dire le Brésil, l’Allemagne, l’Espagne, la France, la Belgique et le Portugal. A l’autre extrémité, on voit aussi, qu’elles sont aussi plutôt d’accord sur les 5 dernières. Par contre, entre les deux, les classements sont parfois homogènes (la Croatie par exemple) et parfois divergents, pour l’Argentine, le Pérou, le Mexique, et la Serbie par exemple.
Cette représentation graphique nous montre encore des profils de pronostiques parfois similaires pour différents pays. Par exemple entre la Colombie et la Russie, ou encore entre la Tunisie et la Suisse. Ceci laisse à penser que certaines études sont plus semblables entre elles que d’autres.
Pour investiguer ce point, j’ai comparé, dans un second temps, les classements des différentes nations, pour chaque couple d’études, à l’aide de scatter plots. J’ai aussi calculé leur coefficient de corrélation (Pearson) :
NB : la droite tracée est une ordonnée de 0 et une pente de 1NB : désolée pour la mauvaise qualité, je ne suis pas parvenue à faire mieux (en zoomant c’est lisible)Les classements des différentes équipes sont tous très fortement corrélés, puisque les coefficients de corrélation s’étendent de 0.80 à 0.91. Les classements les moins corrélés sont ceux des équipes d’Enora Belz et de Lorenz Gilch. Pour cette paire de pronostiques, les principales divergences concernent la Suisse, la Tunisie, la Colombie, la Russie, l’Argentine et l’Egypte. A l’inverse, les classements les plus corrélés sont ceux des équipes de Zeileis et Gilch. On peut voir que les divergences sont moins marquées, les principales concernent l’Egypte et le Pérou.
Pour essayer de synthétiser, à la fois, ces différences de classement des nations, et de similarités entre les études, mis en évidence sur ces 6 scatter plots, j’ai utilisée une heatmap :
On retrouve nettement les 3 groupes de pays déjà vu précédemment :
- ceux qui sont classés par les trois études comme ayant une forte probabilité de gagner le tournoi, autrement dit ayant des rangs faibles (couleurs sombres). C’est le cas des pays allant globalement du Brésil à l’Argentine. Et dans ce groupe, on peut même distinguer 2 sous-groupes, avec la France en position intermédiaire.
- à l’opposé ceux classés par les trois études comme ayant une très faible probabilité de gagner le tournoi, allant de l’Iceland au Pananma (couleurs claires). La encore deux sous-groupes peuvent être distingués, avec l’Iran en position intermédiaire.
- et entre les deux, des pays pour lesquels les études divergent parfois beaucoup comme la Serbie, la Russie, le Pérou, avec des couleurs plutôt turquoises.
Au final, l’ordre des pays sur la heatmap représente le meilleur consensus entre les équipes de pronostiqueurs.
Par contre, en termes d’équipe ayant fait les pronostiques, je ne trouve pas les similarités particulièrement marquantes. Cela est sans doute dû au fait que les corrélations s’étendent seulement de 0.8 à 0.91.Pour terminer, je me suis demandé quelles sont les nations pour lesquelles ces études sont les plus divergentes. J’ai calculé les différences de classement, pour chaque pays, et pour chaque paire d’études. Puis j’ai calculé, pour chaque pays, la plus grande différence, ainsi que la différence moyenne.
Je pense que ça sera intéressant de confronter la liste des pays qualifiés pour les huitièmes de finale, avec la liste des 16 premières nations ré-arrangées par la heatmap et qui représentent le meilleur consensus des quatre équipes de pronostiqueurs. Et pour les pays absents des huitièmes de finale, de regarder quel était le niveau de divergence des études.
Voilà, j’espère que ce second article sur la coupe du monde, vous plaira autant que le premier. N’hésitez pas à me dire ce que vous en pensez en commentaire.
Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R Crédit photo : Gellinger