Multiple Correspondence Analysis
Analyzing a survey like a boss using ACM with R
(In french)

 

 

 

Fait par Mehdi CHEBBAH


 

Tableau de Contenu


Environnement de l’étude

Technique:

Fonctionnel

Dans ce qui suive on va utiliser les abréviations suivantes:

I. Objectif de cette étude

Cette étude a pour rôle de :

II. La collection des données

Je vais utilise les données envoyées Evaluation 1CPI 2018-2019 S1.xls --> BWEB

Donc cette phase (Data collection) n'est pas nécessaire dans ma situation mais dans une analyse de données ou les données ne sont pas disponibles c'est une phase très importante, elles permet de collecter les ressources nécessaire pour l’étude.

Pour faire l’étude en R on va exporter la feuille BWEB dans le fichier Evaluation 1CPI 2018-2019 S1.xls en forma .CSV

File --> Save As --> Other Formats et vous choisissez CSV.

Dans ce qui suive on va référencer ce fichier par BWEB.CSV.

III. Pre-traitement des données

Cette phase (Data pre-prcessing) est la phase la plus lente (environ 60% du temps de data analyste) et la phase qui détermine la qualité de l’étude. Elle est résumé dans le secript R suivant:

Après l’exécution de ce script le tableau de données sera comme dans le figure si-après:

 

IV. Analyse statistique simple sur les données

A. Étude générale:

On veut dans un premier temps de savoir en générale l’idée des étudiants sur ce module pour faire on va visualiser les totales des réponses sans voire les questions.

  1. Création du tableau contenant le totale de chaque modalité pour chaque question

     

    le résultat:

  1. Visualisation des totales des modalités

    Le résultat:

    L’interprétation:

    On remarque qu'un tiers des réponses étaient BIEN et les autre réponses sont pratiquement égales, ce qui veut dire que plus de 50% des réponses sont positives ==> Généralement le module BWEB est évalué BIEN.

B. Étude détaillés des questions :

On veut visualiser les réponses de chaque question pour cela on reprend le tableau y dans la section prétendantes.

On remarque de ce schéma:

Le tableau disjonctif

Le resultat

V. Analyse approfondie des données

Analyse Factorielle des Correspondances Multiples:

Le raison pour lequel on va faire une Analyse Factorielle des Correspondances Multiples est que les données sont qualitatives et qu'on a plus de deux variables. La commande pour faire un AFCM est:

1. Les valeurs propres/pourcentage d'inertie:

cette instruction va générer un tableau contenant les valeurs propres et les inertie associés et les inerties cumulés

Si on voulez retenir 80% de l'information il faut retenir 7 axes qui est très beaucoup dans notre cas.

On ne peut pas utiliser la méthode des valeurs propres >1 car dans un AFCM les valeurs propres sont tous <1.

Donc on va utiliser la méthode de coude, pour faire il faut dessiner les valeurs propres et les inerties associes

Le résultat est le suivant

On peut prendre les 3 premiers axes qui représentent 58.5% de l'information.

2. Biplot:

Le résultat de l’exécution de cette commande est:

Dans le graphique ci-dessus, les lignes (individus) sont représentées par des points bleus et des colonnes (variables + modalités) par des triangles rouges.

La distance entre les individus donne une mesure de leur similitude (ou dissemblance). Les individus avec un profil similaire sont proches sur le graphique. Il en va de même pour les variables. Par exemples les étudiants 20,48,25 et 3 ont les même réponses dans toutes les questions .

3. Étude des variables
a. Corrélation entre les variables et les axes principaux (1er et 2eme axe)

Le résultat attendue:

On remarque que les variables ne sont pas vraiment corréler a un axe mais plutôt ils sont reliées aux deux axes au même temps.

b. Coordonnées des catégories des variables:

Le résultat de cette commande est la matrice V, tel que V1 est la projection de la modalité B de la question 1 sur l'axe 1, etc...

Pour faire la représentation des modalités des variables dans le 1er plan principale il faut exécuter le code suivant

Dans ce plan en remarque la majorité des modalités sont bien représenté (loin du centre de plan), on peut aussi remarquer que les modalités TB (TRES BIEN) sont bien représenté dans le deuxième axe, contrairement aux modalités TM (TRES MAUVAIS) qui sont mieux représenté par l'axe 1

c. Les contributions relatives (qualités de représentations)

On peut vérifier ces résultats en utilisant les contributions relatives des modalités a la construction des axes (les cos2)

On trouve

DeepinScreenshot_dde-desktop_20191127183157

DeepinScreenshot_dde-desktop_20191127183251

Donc on remarque d’après les contributions relatives que:

On peut résumer ces informations dans les figures suivants:

cos2_1_var

cos2_2_var

Ou bien en utilisant un barplot

cos2_dim1

cos2_dim3

d. Contribution des variables aux axes:

Pour savoir quelles variables participes aux axe on va utiliser les figures suivants

cre_dim2

Donc pour savoir les significations des axes il faut voir les signes des variables qui contribuent le plus dans la construction de cette axe

  1. Axe 1

    -+
    V6_TB, V8_TB, V10_TBV2_TM, V6_TM, V8_TM, V1_TM, V5_TM, V7_TM, V4_TM, V9_TM, V10_TM

    Donc l'axe 1 est un axe d'opposition, Il oppose les étudiants qui ont répondues par TRES MAUVAIS dans la plupart des questions aux étudiants qui ont répondues par TRES BIEN dans les questions 6, 8 et 10

  2. Axe 2

    -+
    V10_B, V8_B, V6_B, V9_B, V2_B, V7_BV1_TB, V2_TB, V3_TB, V4_TB, V5_TB, V6_TB, V7_TB, V8_TB, V9_TB, V10_TB

    Donc l'axe 2 est un axe d'opposition, Il oppose les étudiants qui ont reperdues par TRES BIEN dans la plupart des questions aux étudiants qui ont répondues par BIEN a la plupart des questions.

  3. Axe 3

    -+
    V5_B, V1_B, V6_B, V10_B, V2_BV2_M, V9_M, V6_M, V7_M, V1_M, V8_M, V4_M, V5_M

    Donc l'axe 3 est un axe d'opposition, Il oppose les étudiants qui ont répondues par MAUVAIS a majorité des questions aux étudiants qui ont répondues par BIEN aux questions 5, 1, 6, 10 et 2.

3. Étude des individues:
a. Représentation des individues dans le premier et le troisième plans factoriels:

Le résultat:

A partir de figure si-dessus on peut décider que:

cab_2_ind

cab_3_ind

Axe 1

-+
38, 42, 21, 393, 20, 48, 25, 14

L'axe 1 oppose ces individues car les individues dans le cote négatives ont répondues aux beaucoup de questions par TRES MAUVAIS contrairement aux étudiants dans le cote négative qui n'ont pas rependues aux questions par TRES MAUVAIS en plus ils ont répondues a la 6, 8 et 10 eme questions par TRES BIEN.

Axe 2

-+
2, 47, 1038, 42, 21, 39, 35

L'axe 2 oppose ces individues car les individues dans le cote négatives ont répondues aux beaucoup de questions par TRES BIEN contrairement aux étudiants dans le cote négative qui n'ont pas rependues aux questions par TRES BIEN mais par BIEN.

Axe 3

-+
6, 10, 2729, 13, 23, 44

L'axe 2 oppose ces individues car les individues dans le cote négatives ont répondues aux beaucoup de questions par MAUVAIS contrairement aux étudiants dans le cote négative qui ont répondues aux question 5, 6, 1, 2 et 10 par BIEN

4. Étude des questions

Le résultat de cette commande nous donne les coordonnes des question (variables) dans les nouvelles axes

Les questions les mieux representes sont les questions (i) qui ont |W.alpha(i)| > sqrt(lambda.alpha)

Analyse des composantes principales (de deux questions au hasard):

Pour cette analyse j'ai choisie la première et la dixième question

Le résultat est le suivant

Les points blues sont les lignes et rouges sont les colonnes.

On remarque déjà que le pourcentage d'inertie représenté dans ce plan est 86.87% qui est bien.

On remarque aussi que la modalité TRES MAUVAIS dans les deux questions est bien représenté dans l'axe 1, la même chose pour la modalité TRES BIEN dans l'axe 2.

On remarque que les étudiants qui on répondus par BIEN a la premier question ont pratiquement répondues par BIEN a la deuxième question aussi meme pour TRES MAUVAIS et TRES BIEN.

a. Analyse des valeurs propres et des pourcentages d’inertie

Donc on va prendre les 2 premières valeur propres (le premier plan)

b. signification des axes

On trouve

cos2_col_afc

cre_dim2_afc

On remarque que l'axe 1 est un axe d'opposition il oppose les étudiants qui ont répondues par TRES MAUVAIS aux étudiants qui ont répondues par BIEN

pour l'axe 2 on remarque que c'est aussi un axe d'opposition car il oppose les étudiants qui ont répondues par TRES BIEN aux étudiants qui ont répondues par BIEN

c. Les lignes

De ce figure on conclue que les étudiants qui ont rependues par TRES MAUVAIS dans la première question ont répondues par TRES MAUVAIS a la deuxième question aussi, le même raisonnement pour TRES BIEN et pour BIEN.

Mais pour les étudiants qui ont répondue par MAUVAIS on ne peut pas conclure car ils sont mal représentés dans ce plan.