LES OUTILS DE BASE DE LA STATISTIQUE

Janvier 2002 - n°64

par Jean-Claude SISSON, Professeur Associé au CNAM

Cacemi-Cnam - Tél : 01 40 27 24 49 - Fax : 01 42 71 94 76 - cacemi@cnam.fr - http://www.cnam.fr/cacemi/

Les résultats de nos observations sont tous affectés d’une variabilité inhérente…

Les phénomènes qui présentent une certaine "répétabilité" dans nos observations sont ceux qui se rapportent à ce que nous appelons notre univers physique. Le fait est que les résultats de l’observation de ces phénomènes, à notre échelle macroscopique, obtenus par mesures (ou par comptages), sont tous affectés d’une variabilité inhérente. On démontre que cette variabilité a pour origine un ensemble de très nombreuses sources de perturbations "microscopiques", celles-ci étant en quasi totalité inaccessibles à nos observations et donc à notre connaissance.

Cette variabilité est qualifiée dans notre langage courant de naturelle. Elle traduit le fait qu’aucun phénomène physique n’est parfaitement répétable ou reproductible. On notera par ailleurs qu’une part de la variabilité constatée dans les résultats de nos observations est imputable aux moyens de mesure qui ne sont pas parfaitement fidèles.

La statistique repose sur le principe fondamental suivant...

Il résulte de ce qui précède que l’on ne peut pas prévoir avec précision, avant toute observation, la valeur précise que prendra le résultat d’une mesure : on ne peut tout au plus connaître a priori que l’ordre de grandeur de cette valeur.

Cependant la répartition, on dit aussi la distribution, des résultats de mesure d’une grandeur aléatoire, observée dans des échantillons issus d’une population composés d’éléments de même nature, est sensiblement la même pour tous les échantillons.

Il y a donc de l’ordre dans ce désordre !

On peut ainsi énoncer le principe fondamental de la statistique sous la forme : la variabilité naturelle de toute grandeur aléatoire est naturellement organisée.

Pour une meilleure compréhension de ce qui suit, nous appelons :

- Individu : tout élément ou composant auquel peut être associé un résultat de mesure lors de l’observation de la grandeur aléatoire

- Echantillon : l’ensemble fini des éléments de même définition auquel est associé, lors de l’observation de la grandeur aléatoire et pour chacun d’entre eux, un résultat de mesure

- Population : ensemble que nous supposerons composé d’une infinité d’éléments de même définition, sur lesquels l’observation de la grandeur est virtuellement possible.

Des outils ou méthodes de base pour décrire et modéliser cette variabilité

Le premier des outils de base de la statistique se rapporte à la description de la variabilité aléatoire d’une grandeur observée dans un échantillon. C’est la Distribution Statistique.

L’objet est de décrire la répartition des résultats de mesure observés. Si la grandeur est quantitative et continue, les résultats pourront être regroupés par exemple en classes de valeurs. A chaque classe est associée la proportion d’éléments de l’échantillon dont la valeur y est incluse. A chaque classe est associée la proportion d’éléments de l’échantillon dont les valeurs se répartissent entre les limites de la classe.

Une représentation par histogramme agrémente alors la description.

Figure 1

Le deuxième des outils de base de la statistique se rapporte à la description de la variabilité aléatoire d’une grandeur susceptible d’être observée dans une population. C’est la Distribution de Probabilités.

On fait tendre, par la pensée, le nombre d’éléments de l’échantillon vers l’infini. L’échantillon tend donc vers la population. Le profil de l’histogramme précédent convergera vers une courbe continue qui caractérisera la répartition des valeurs susceptibles d’être observées dans la population.

Figure 2

La proportion d’éléments de la population dont la valeur est comprise dans un intervalle donné est appelée Probabilité. C’est aussi la chance que l’on a en tirant au hasard un élément dans cette population d’avoir la valeur de celui-ci comprise dans ce même intervalle.

Les Lois de probabilités telle que la loi de Laplace-Gauss, sont des modèles mathématiques de Distributions de Probabilités susceptibles d’être rencontrées. La loi de Laplace-Gauss est communément appelée Loi Normale car elle est très fréquemment retenue dans les applications. La justification de cette utilisation réside dans le Théorème de la Limite Centrale qui stipule que la répartition des valeurs d’une grandeur aléatoire, dont les sources de fluctuations sont indépendantes, à effets individuels faibles et se combinent additivement, tend vers le modèle de Loi de Laplace-Gauss lorsque le nombre de ces sources tend vers l’infini.

Ce théorème nous éclaire bien sur les limites de notre connaissance. Il joue un rôle fondamental dans les applications industrielles de la statistique.

Le troisième des outils de base de la statistique se rapporte à la détermination des paramètres inconnus des Distributions de Probabilités. Il s’agit des techniques d’estimation.

Les modèles comportent des paramètres inconnus qu’il convient de déterminer de manière approchée sur la base des résultats des mesures effectuées dans l’échantillon. La détermination des paramètres inconnus des modèles ne pourrait se faire avec exactitude que dans le cas où tous les éléments de la population - il y en a une infinité! - seraient observés. Ces paramètres inconnus ne pourront qu’être estimés.

L’estimation peut être :

- ponctuelle, c’est-à-dire donner lieu au calcul d’une valeur attribuée au paramètre

- effectuée par intervalle de confiance, dans lequel on a une probabilité P d’avoir la vraie valeur inconnue du paramètre concerné, tout comme en métrologie on associe une incertitude à un résultat de mesurage.

Le quatrième des outils de base de la statistique consiste à tester l’hypothèse que l’échantillon observé est susceptible d’être extrait d’une population définie par une distribution de probabilités. C’est le test d’adéquation .

Le test consiste à calculer une distance qui sépare la distribution statistique (associée à l’échantillon) et la distribution de probabilités. Si celle-ci est petite, on accepte l’hypothèse ; si celle-ci est trop grande on rejette l’hypothèse.

Figure 3

La pratique des tests statistiques s’initialise ici avec les notions de risque a (de rejeter à tort) et de risque b (d’accepter à tort). De multiples tests d’adéquation sont disponibles, tels que Chi-deux, Kolmogorov-Smirnov, Lilliefors, Shapiro-Wilk.

Soulignons, en outre, que d’autres outils se déclinent des précédents (1).

Des outils pour une optimisation du traitement et de l'exploitation de données expérimentales (2)

On entrevoit à partir de ce qui précède que tous les outils et méthodes de base de la statistique s’enchaînent logiquement. Une bonne connaissance de ceux-ci est indispensable car non seulement elle permet d’éviter les pièges tendus par l’utilisation incontrôlée de fonctions statistiques présentes dans certains logiciels, mais aussi, elle décuple nos possibilités d’analyse et permet de crédibiliser les choix et solutions techniques lorsque ceux-ci résultent de l’exploitation de résultats expérimentaux.

(1 ) On pourra par exemple consulter le programme du stage "QS03 - Les 7 outils de base de statistique pour la qualité" animé par JC Sisson. Les méthodes pédagogiques mises en œuvre pour la formation à ces outils statistiques appellent l’utilisation d’un minimum de connaissances mathématiques (du niveau baccalauréat). Cette connaissance indispensable est donc à la portée de tous.

(2) On notera que plusieurs démarches méthodologiques appelant une bonne connaissance des statistiques, sont proposées dans le cadre du Cacemi en stages inter-entreprises ou en stage intra-entreprise. Parmi celles-ci :

- l’estimation des incertitudes de mesure,

- les études d’aptitude et le suivi de la stabilité des moyens de mesure (d’après notamment la spécification MSA de Ford),

- les études d’aptitude et le suivi de la stabilité des moyens de production (SPC ou MSP),

- la conception et l’optimisation des expérimentations (Plans d’Expériences)

- l’exploitation des bases de données (Analyse des données).

Information : Cacemi-Cnam - Tél : 01 40 27 24 49 - Fax : 01 42 71 94 76 - cacemi@cnam.fr - http://www.cnam.fr/cacemi/

Retour aux archives de la gazette du LABORATOIRE