| Statistique Losqu' on possède un grand nombre
d' informations (concernant un ensemble d' objets, de nombres, de personnes,
etc.), on peut décider de les résumer, c' est-à-dire
d' en extraire une information plus simple, facile à exprimer,
à transmettre et à comprendre ; mais ce résumé
est forcément approximatif. On perd alors de l' exactitude
(on néglige tout ce qu' on considère comme secondaire)
mais on gagne en concision et en clarté (on ne s' intéresse
qu' à ce qu' on considère comme essentiel).
Le point de départ d'une étude statistique est un choix : on décide d' étudier un aspect au détriment de tous les autres, et on néglige le particulier (individuel) pour privilégier le général (collectif). La statistique est un art qui consiste à faire apparaître une information simple et significative à partir d' un ensemble de données complexe. Par exemple, si on étudie les notes des élèves d' une classe, d' un point de vue statistique, on peut commencer par calculer leur moyenne. Ceci donne une première indication sur le niveau global de la classe. On peut ensuite étudier la répartition des notes (par tranches de deux points, par exemple) : ceci permet de se faire une idée du nombre d' élèves en difficulté. Si on cherche à savoir qui sont ces élèves en difficulté, on revient du général au particulier : ce n' est plus de la statistique. Un institut de sondage peut étudier les opinions politiques des français selon leur sexe, leur âge, leur profession, leur catégorie sociale, leur région de résidence, leur niveau d' études, leur couleur de cheveux, etc. Certains critères peuvent être significatifs (par exemple la catégorie sociale), d' autres ne le sont probablement pas (par exemple la couleur des cheveux). L' art de l' institut de sondage consiste à trouver les critères les plus significatifs, et à les utiliser pour constituer des panels (ensembles de personnes limités, ou échantillonnages) représentatifs de l' ensemble de la population. Pour tester ses conclusions, l' institut de sondage interroge, avant une élection, les personnes appartenant à son panel ; après l' élection, il compare leurs opinions avec le résultat des urnes. La correspondance est parfois excellente, parfois très mauvaise ... On entre ici dans le domaine de la prospective (prévision du futur) : les statistiques sont utilisées pour calculer des probabilités. Une série statistique est un ensemble de nombres (ou termes) - notes, âges, poids, tailles, mesures quelconques - dont on veut étudier la répartition. S' il y a beaucoup de termes, on peut les regrouper en sous-ensembles appelés tranches. Le nombre d' éléments d' une tranche est son effectif. Les effectifs des différentes tranches peuvent être visualisés grâce à des diagrammes (diagramme à bandes ou histogramme, diagramme à secteurs circulaires ou "camembert", diagramme à bâtons, etc.). Les effectifs cumulés s'obtiennent en additionnant successivement les effectifs de toutes les tranches, de la première à la dernière. A chaque tranche correspond un pourcentage : pour le calculer, on divise l' effectif de la tranche par l' effectif total et on multiplie par 100. (On obtient un résultat compris entre 0 % et 100 %.) La fréquence s' obtient en divisant l' effectif de la tranche par l' effectif total. (On obtient un résultat compris entre 0 et 1.) Le pourcentage et la fréquence sont deux façons d' exprimer une même notion. La moyenne d' une série statistique s' obtient en additionnant tous ses termes, puis en divisant par l' effectif total. Si on veut faire une moyenne pondérée (moyenne avec coefficients) on attribue un "poids" (coefficient) à chacun des termes ; on multiplie chaque terme par son coefficient, on additionne le tout, puis on divise par la somme des coefficients. Le maximum d'une série est son plus grand élément ; son minimum est son plus petit élément ; son amplitude est la différence entre son maximum et son minimum. Pour obtenir la médiane d'une série, on supprime son plus grand et son plus petit éléments, puis on recommence jusqu'à ce qu'il ne reste plus qu'un ou deux éléments. S'il en reste deux, on fait leur moyenne. On appelle écart la différence entre un élément donné et la moyenne de la série. (C' est un nombre positif.) On peut calculer la moyenne de tous les écarts : c' est l' écart moyen. La variance d' une série est la moyenne des carrés de tous les écarts. L' écart-type est la racine carrée de la variance. Exemple : Les élèves d' une classe ont eu les notes suivantes : 5,25 ; 17,67 ; 5,74 ; 11,68 ; 11,71 ; 12,82 ; 4,09 ; 2,62 ; 7,71 ; 14,56 ; 11,41 ; 6,03 ; 9,47 ; 9,38 ; 12,04 ; 4,56 ; 12,59 ; 8,13 ; 9,85 ; 9,38 ; 5,74 ; 10,82 ; 14,03 ; 17,32 ; 19,00 ; 2,34. Il y a 26 élèves ; la somme des 26 notes est : 255,94 ; la moyenne est : 255,94 : 26 = 9,84 ... Si on élimine les 12 notes les plus basses et les 12 notes les plus élevées, il reste : 9,47 et 9,85. Donc la médiane est : (9,47 + 9,85) : 2 = 19,32 : 2 = 9,66. Le minimum est : 2,34 ; le maximum est : 19 ; l' amplitude est : 19 - 2,34 = 16,66. Faisons des tranches de deux points et représentons dans un tableau les effectifs, les effectifs cumulés, les pourcentages et les fréquences :
Calculons les écarts individuels (par rapport à la moyenne, qui est 9,84) :
La somme de ces écarts est 58,72 ; leur moyenne est : 58,72 : 26 = 2,26 environ. C' est l' écart moyen. La somme des carrés des écarts individuels est égale à 519 environ ; divisons par 26 pour avoir la variance. Nous obtenons : 19,96 environ. La racine carrée de ce nombre est 4,46 environ : c' est l' écart-type. |