Envoyer à un ami |
Version à imprimer |
Version en PDF
Dans une synthèse récente sur
les salaires moyens dans différents secteurs (selon l'ONS) parue dans «Le
Quotidien d'Oran» du 23 décembre 2019, l'auteur présente la valeur du salaire
moyen dans certains secteurs (finances, hydrocarbures, public, privé etc.) avec
des comparaisons inter sectorielles.
Néanmoins comme nous pouvons le constater, l'article ne présente pas des indications sur la dispersion des salaires autour du salaire moyen par secteur ! Les quantités statistiques telles que la Variance, Médiane et Quantiles peuvent donner un éclairage intéressant sur le problème de la dispersion. La notion de salaire moyen dans un groupe est un paramètre qui donne une idée du centre de l'ensemble des données observées du salaire du groupe. Cependant, elle ne nous renseigne pas sur la dispersion de ces salaires dans ce groupe. Un autre paramètre statistique appelé variance permet de fournir une information sur la dispersion des salaires dans le groupe. Pour illustrer cela, nous rappelons d'abord quelques notions bien connues liées à la statistique des variables aléatoires. La notion de moyenne pour une quantité X (appelée variable statistique X : âge, poids, revenu annuel, salaire mensuel, prix du pétrole du jour, note à un examen, etc.) est un paramètre qui permet de localiser le centre des données observées (la moyenne de X est dite aussi espérance de X et notée E(X) ). Il faut dire que les valeurs prises par une variable X sont soumises à un certain aléa d'un environnement donné ( X est ainsi appelé variable aléatoire) et prend des valeurs avec une probabilité (chance, proportion, incertitude). Cela veut dire que la variable X prend une valeur donnée x avec une probabilité px (dans ce cas la variable aléatoire X est dite discrète). Ce nombre px est compris entre 0 et 1. Pour une variable aléatoire continue X, elle prend ses valeurs dans des intervalles avec des probabilités. Nous obtenons ainsi une probabilité notée PX, appelée loi de probabilité de X, permettant d'évaluer les «chances» des valeurs prises par la variable X. Les praticiens de la statistique cherchent à obtenir des informations sur la loi de probabilité PX de X. Si la loi de probabilité PX est identifiée, on peut mener des calculs donnant tous les paramètres de cette loi en particulier la moyenne E(X). Ils se font par l'intermédiaire de la densité de probabilité fX ou encore la fonction de répartition FX qui permettent aussi d'évaluer les probabilités que X prenne des valeurs données. En pratique la loi de probabilité X est souvent inconnue. Ainsi, à partir de données observées (échantillon de X), on procède, dans un premier temps, à des estimations des principaux paramètres tels que la moyenne E(X) ou la variance, etc. Néanmoins il existe des méthodes appelées statistiques non-paramétriques permettant une estimation et parfois une identification de la loi de probabilité PX . Ainsi quand on abord une étude statistique sur la moyenne E(X) (salaire moyen, prix moyen du pétrole, etc.) à partir des données observées de la variable X, la loi de probabilité PX de X est inconnue. Par suite l'estimation du paramètre moyenne E(X) de la loi PX se fait à partir de n observations : X1, X2, ..., Xn de X. L'estimateur est appelé la moyenne empirique, noté Mn et donné par Mn=(1/n)( X1+ X2+ ..+ Xn). Il fournit une bonne estimation de E(X) pour n assez grand et nous pouvons aussi construire ce qu'on appelle des «intervalles de confiance» contenant la valeur E(X) avec un certain risque avec l'aide du fameux théorème central limite affirmant que la variable aléatoire Mn suit une loi de Gauss (loi normale) pour n assez grand. Cependant en théorie, cette estimation de la moyenne E(X) nous informe seulement sur le centre des valeurs prises par la variable X. Mais pour rendre compte de la dispersion des observations de la variable X autour de sa moyenne E(X), un autre paramètre important appelé variance (noté V(X)) doit être estimé par une formule empirique. Il fournit une idée sur la dispersion (ou l'étendue de la dispersion) de la manière suivante : plus le nombre V(X) (ou la racine carrée de V(X) appelée écart type) est «petit» plus les valeurs de X sont concentrées (ou très proches) autour de E(X) et si V(X) est «grand» cela impliquerait une grande dispersion des valeurs de X autour de E(X). Ainsi on obtient une information sur l'étendue des valeurs prises par la variable X. Remarquons qu'une grande valeur de V(X) ne fournit pas, en général, une information précise sur les valeurs prises par X. Pour illustrer ce phénomène de la dispersion voici un exemple artificiel. Exemple : Nous avons deux groupes G1 et G2 d'étudiants qui ont passé le même examen. Pour simplifier, l'effectif de chaque groupe est de 4 étudiants. Pour le groupe G1 les notes obtenues (sur 20) sont : 08 ; 09 ; 11 ; 12 et pour le groupe G2 les notes obtenus sont : 04 ; 05 ; 15 ; 16. Pour les deux groupes G1 et G2 la note moyenne observée Mn = 10 /20. Néanmoins leurs variances empiriques observées sont V1=2.5 et V2= 30.5. Ainsi la valeur «assez petite» de V1 renseigne sur une «concentration» des notes X autour de E(X) et la valeur «assez grande» de V2 informe sur une «assez grande» dispersion de celles-ci. En observant les notes obtenues, on remarque que le groupe G1 est homogène, par contre le groupe G2 est très disparate avec deux étudiants d'un très bon niveau et deux autres d'un niveau très bas. Ainsi si on décide d'une admission globale par groupe (qui est une aberration !) sur la base de la moyenne observée 10/20, les 2 groupes seront automatiquement admis. Néanmoins pour le groupe G1 les notes sont «assez proches» de 10. Par contre ce n'est pas le cas pour le groupe G2. Ainsi une étude statistique basée seulement sur la moyenne observée ne fournit pas une image réelle sur les valeurs prises par la variable X et ne permet pas de déduire des conclusions intéressantes ! Médiane et quantiles Un autre paramètre de la loi de X permet de donner une image précise de la notion de dispersion dans un échantillon observé de X est le paramètre des quantiles. Par définition le quantile d'ordre p, noté qp , pour 0<p<1, est obtenu par la relation suivante : p=P(X < qp)=FX(qp) (équation (*)) qui signifie : la probabilité p (proportion, pourcentage, chance, etc. ) est la proportion des valeurs de X qui sont inférieures ou égales à qp et où FX est la fonction de répartition de X. A partir de données observées on peut déterminer les quantiles empiriques par estimation de la fonction de répartition FX. Il existe trois quantiles naturels correspondants à : p= ¼, p= ½, et p= 3/4. Par exemple on peut illustrer ce paramètre dans une étude portant sur la répartition du salaire X dans un groupe d'individus. Pour p= ¼, l'équation (*) détermine empiriquement par estimation de FX , le 1er quantile q1. Pour ce cas nous avons 25% de la population avec un salaire inférieur à q1 et en même temps 75% avec un salaire supérieur à q1. Pour p= ½, le 2eme quantile q2 appelé aussi médiane, on a 50% de la population avec un salaire inférieur à q2 et bien sûr l'autre moitié avec un salaire supérieur à. q2. Pour p= 3/4, le 3ème quantile, nous avons 75% de la population avec un salaire inférieur à q3 et en même temps 25% avec un salaire supérieur à q3. Si nous revenons à l'exemple des deux groupes d'étudiants cités plus haut : on a pour G1 : q1 =8 ; q2=9 ; q3=11 et pour G2 : q1 =4 ; q2=5 ; q3=15. Ainsi on est mieux renseigné sur la dispersion des notes par le quantile q2 (la médiane) : pour G1 ,la médiane est q2=9 et donc 50% des étudiants (2 étudiants) ont une note à l'examen inférieure ou égale à 9. En revanche pour G2 , la médiane est q2=5 et donc 50% des étudiants (2 étudiants) ont une note à l'examen inférieure ou égale à 5 ! bien que les deux groupes ayant la même note moyenne 10, donnent une «image d'égalité» de groupes. On peut aussi chercher la proportion p d'individus ayant un salaire compris entre deux seuils s1 et s2 donnés : cela se traduit par chercher le nombre p qui vérifie l'équation : p=P(s1<X< s2)=FX(s2)- FX(s1). Elle permet aussi sur une étude des salaires, de déterminer la proportion ps d'individus «pauvres» si on fixe un seuil de pauvreté sP : ps=P(X< sP)=FX(sP). Si on fixe un seuil de «richesse» sR, la proportion pR d'individus «riches» est obtenue par : pR=P(X> sR)=1-FX(sR). Entre les deux seuils sP et sR nous avons une classe «moyenne» qu'on pourra aussi déterminer. Toutes ces questions trouvent automatiquement leur résolution par l'estimation empirique de la fonction de répartition FX. La théorie des quantiles empiriques existe (résultats limites pour n assez grand etc.) mais elle reste assez compliquée à établir. (*) Professeur de Statistiques Mathématiques Laboratoire de Statistiques et Modélisations Aléatoires- Université ABB Tlemcen |
|