Le tableau de contingence est un outil statistique qui permet de croiser deux variables qualitatives et d’observer immédiatement si elles présentent un lien statistique. Cette méthode révèle des patterns comportementaux, des tendances de marché et des corrélations dans vos jeux de données.
Qu’est-ce qu’un tableau de contingence ?
Le tableau de contingence est un tableau à double entrée qui présente la répartition conjointe de deux variables qualitatives. Chaque cellule contient un effectif correspondant simultanément à une modalité de la première variable (en ligne) et à une modalité de la seconde variable (en colonne).
Structure et composantes d’un tableau de contingence
La structure repose sur une architecture matricielle : les modalités de la première variable en lignes, celles de la seconde en colonnes.
Exemple pratique avec niveau d’éducation et catégorie socioprofessionnelle :
- Niveau d’éducation : Bac, Licence, Master, Doctorat (4 lignes)
- Catégorie socioprofessionnelle : Employé, Cadre, Profession libérale (3 colonnes)
- Résultat : 12 cellules contenant les effectifs observés
Les totaux marginaux sont essentiels : les totaux de lignes indiquent l’effectif total pour chaque modalité de la variable en ligne, les totaux de colonnes pour chaque modalité en colonne. L’effectif total global, en bas à droite, correspond au nombre total d’observations.
Vous pouvez calculer :
- Pourcentages en ligne (quel est le pourcentage de diplômés du Master parmi les cadres ?)
- Pourcentages en colonne (quelle proportion de l’échantillon représentent les employés ayant un niveau Licence ?)
- Pourcentages par rapport au total général
Différence entre variables qualitatives et quantitatives
Les variables qualitatives (catégorielles) décrivent des caractéristiques non mesurables numériquement :
- Variables nominales : sans ordre naturel (couleur des yeux, type de produit acheté, région d’origine)
- Variables ordinales : avec un ordre logique (niveau de satisfaction, catégorie d’âge, niveau d’études)
Les variables quantitatives prennent des valeurs numériques mesurables :
- Variables discrètes : certaines valeurs uniquement (nombre d’enfants, nombre de transactions)
- Variables continues : n’importe quelle valeur dans un intervalle (poids, température, chiffre d’affaires)
Le tableau de contingence s’applique prioritairement aux variables qualitatives, mais vous pouvez l’utiliser avec des variables quantitatives en les transformant en classes (ex : âge en tranches 18-25 ans, 26-35 ans).
Comment construire un tableau de contingence ?
Préparation des données et calcul des effectifs
Avant de construire le tableau, nettoyez et standardisez vos données :
- Absence de valeurs manquantes ou aberrantes
- Modalités clairement définies et mutuellement exclusives
- Cohérence des codages dans tout le jeu de données
Déterminez les modalités de chaque variable, créez la structure vide avec une ligne « Total » en bas et une colonne « Total » à droite. Parcourez ensuite votre jeu de données observation par observation : pour un client de genre féminin ayant exprimé une satisfaction « Élevée », ajoutez 1 à la cellule située à l’intersection « Femme » × « Satisfaction élevée ».
Utilisation d’Excel pour créer un tableau de contingence
Excel propose le tableau croisé dynamique (TCD) qui automatise la construction. Sélectionnez votre plage de données, accédez au menu « Insertion » puis « Tableau croisé dynamique ».
Configuration du TCD :
- Glissez la première variable dans la zone « Lignes »
- Glissez la seconde variable dans la zone « Colonnes »
- Glissez n’importe quelle variable dans la zone « Valeurs » et sélectionnez « Nombre »
Excel calcule automatiquement les effectifs et les totaux marginaux. Pour afficher les pourcentages, cliquez sur une cellule du TCD, puis « Analyser » > « Paramètres des champs de valeur » > « Afficher les valeurs ». Choisissez « % du total de la ligne », « % du total de la colonne » ou « % du total ».
Conseils pratiques :
- Utilisez la mise en forme conditionnelle pour identifier rapidement les cellules avec effectifs élevés ou faibles
- Créez plusieurs TCD sur la même feuille pour comparer différentes représentations
- Exploitez les segments pour filtrer dynamiquement
Construction avec Python et R
Python avec pandas :
import pandas as pd
# Créer un DataFrame
df = pd.DataFrame({
'Genre': ['F', 'M', 'F', 'M', 'F'],
'Satisfaction': ['Élevée', 'Moyenne', 'Élevée', 'Faible', 'Moyenne']
})
# Créer le tableau de contingence
tableau = pd.crosstab(df['Genre'], df['Satisfaction'], margins=True)
print(tableau)
Le paramètre margins=True ajoute automatiquement les totaux marginaux. Pour calculer les pourcentages : pd.crosstab(df['Genre'], df['Satisfaction'], normalize='all') (total général), normalize='index' (lignes) ou normalize='columns' (colonnes).
R avec le package table :
# Créer des vecteurs
genre <- c('F', 'M', 'F', 'M', 'F')
satisfaction <- c('Élevée', 'Moyenne', 'Élevée', 'Faible', 'Moyenne')
# Créer le tableau de contingence
tableau <- table(genre, satisfaction)
print(tableau)
# Ajouter les totaux marginaux
addmargins(tableau)
La fonction prop.table() calcule les proportions : prop.table(tableau) (proportions globales), prop.table(tableau, 1) (proportions en ligne), prop.table(tableau, 2) (proportions en colonne).
Avec NumPy et SciPy pour analyses avancées :
import numpy as np
from scipy.stats import chi2_contingency
# Tableau de contingence sous forme de matrice
tableau = np.array([[20, 15], [10, 25]])
# Test du Chi-deux
chi2, p_value, dof, expected = chi2_contingency(tableau)
print(f"Chi-deux : {chi2}, p-value : {p_value}")
Interprétation des résultats d’un tableau de contingence
Lecture des effectifs et des pourcentages
L’interprétation commence par l’examen des effectifs bruts pour identifier les combinaisons de modalités les plus et les moins fréquentes. Les totaux marginaux indiquent la distribution de chaque variable prise isolément.
Les pourcentages en ligne répondent à : « Parmi les individus de cette catégorie (ligne), quelle proportion présente telle caractéristique (colonne) ? ». Les pourcentages en colonne inversent la perspective : « Parmi les individus présentant cette caractéristique (colonne), quelle proportion appartient à telle catégorie (ligne) ? ».
Exemple concret :
| Genre | Satisfait | Insatisfait | Total |
|---|---|---|---|
| Femme | 45 (75%) | 15 (25%) | 60 |
| Homme | 25 (62,5%) | 15 (37,5%) | 40 |
| Total | 70 | 30 | 100 |
Lecture en ligne : 75% des femmes sont satisfaites contre 62,5% des hommes. Lecture en colonne : Parmi les satisfaits, 64,3% sont des femmes (45/70).
Tests statistiques : le test du Chi-deux
Le test du Chi-deux d’indépendance détermine si l’association observée entre deux variables est statistiquement significative ou résulte du hasard.

Hypothèses du test :
- H0 (hypothèse nulle) : Les deux variables sont indépendantes
- H1 (hypothèse alternative) : Les deux variables sont dépendantes
Calcul de la statistique :
La formule est : χ² = Σ [(Observé – Attendu)² / Attendu]
Pour chaque cellule, l’effectif attendu sous H0 se calcule : Attendu = (Total ligne × Total colonne) / Total général
Exemple :
Pour la cellule Femme-Satisfait : Attendu = (60 × 70) / 100 = 42
χ² = [(45-42)²/42] + [(15-18)²/18] + [(25-28)²/28] + [(15-12)²/12] = 0,21 + 0,50 + 0,32 + 0,75 = 1,78
Décision statistique :
Avec 1 degré de liberté (ddl = (nombre de lignes – 1) × (nombre de colonnes – 1) = 1×1 = 1) et α = 0,05, la valeur critique du Chi-deux est 3,84. Comme 1,78 < 3,84, on ne rejette pas H0 : l’association entre genre et satisfaction n’est pas statistiquement significative.
Conditions d’application :
- Effectifs attendus ≥ 5 dans au moins 80% des cellules
- Aucun effectif attendu < 1
- Si ces conditions ne sont pas respectées, utilisez le test exact de Fisher (tableaux 2×2) ou regroupez certaines modalités
Mesures d’association :
Le Chi-deux ne mesure pas l’intensité de la relation. Utilisez :
- V de Cramér : varie de 0 (indépendance) à 1 (association parfaite), calculé par V = √(χ²/(n × min(r-1, c-1)))
- Coefficient de contingence : C = √(χ²/(χ²+n))
- Phi (φ) : pour tableaux 2×2, φ = √(χ²/n)
Calcul et interprétation des résidus
Les résidus mesurent l’écart entre effectifs observés et attendus. Le résidu standardisé se calcule : r = (Observé – Attendu) / √Attendu
Règle d’interprétation :
- |r| > 2 : écart significatif au seuil de 5%
- |r| > 2,58 : écart significatif au seuil de 1%
- r positif : sur-représentation (association positive)
- r négatif : sous-représentation (association négative)
Les résidus permettent d’identifier quelles cellules contribuent le plus à la dépendance globale. Dans une analyse marketing, un résidu de +3,2 pour « Cadres × Achat produit premium » révèle une forte affinité, orientant vos stratégies de ciblage.
Limites et précautions d’interprétation
Corrélation n’est pas causalité : Une association statistique entre deux variables ne prouve pas qu’une variable cause l’autre. Une troisième variable (confondante) peut expliquer l’association observée.
Variables confondantes : L’association apparente entre genre et satisfaction pourrait s’expliquer par l’âge si les femmes de l’échantillon sont en moyenne plus jeunes et que les jeunes sont plus satisfaits.
Taille de l’échantillon : Avec un échantillon très grand, même une association faible devient statistiquement significative. Combinez toujours le test d’hypothèse avec une mesure de l’effet (V de Cramér).
Agrégation des données : Le paradoxe de Simpson montre qu’une tendance dans les données agrégées peut s’inverser dans les données stratifiées. Vérifiez toujours la stabilité de vos conclusions en stratifiant selon des variables potentiellement confondantes.
Applications pratiques des tableaux de contingence
Marketing et analyse comportementale
Les tableaux de contingence permettent d’identifier les segments de clientèle et leurs comportements d’achat spécifiques.
Segmentation client : Croisez catégorie socioprofessionnelle × type de produit acheté pour identifier les produits sur-représentés dans chaque segment. Un V de Cramér de 0,42 révèle une association modérée à forte, justifiant des stratégies marketing différenciées.
A/B testing : Croisez version du site web × taux de conversion pour évaluer statistiquement l’impact d’une modification. Le test du Chi-deux détermine si la différence de conversion entre les versions A et B est significative.
| Version | Conversion | Non-conversion | Total | Taux |
|---|---|---|---|---|
| A | 150 | 850 | 1000 | 15% |
| B | 180 | 820 | 1000 | 18% |
Un test du Chi-deux avec p-value < 0,05 confirme que la version B performe significativement mieux.
Analyse des paniers d’achat : Croisez produit A acheté × produit B acheté pour identifier les co-achats fréquents et optimiser le merchandising ou les recommandations.
Médecine et épidémiologie
Études cas-témoins : Le tableau de contingence 2×2 compare l’exposition à un facteur de risque entre malades (cas) et non-malades (témoins).
| Groupe | Exposés | Non exposés | Total |
|---|---|---|---|
| Cas (malades) | a | b | a+b |
| Témoins | c | d | c+d |
L’odds ratio mesure l’association : OR = (a×d)/(b×c). Un OR > 1 suggère que l’exposition augmente le risque de maladie.
Dépistage et diagnostic : Croisez résultat du test × présence réelle de la maladie pour calculer :
- Sensibilité = Vrais positifs / (Vrais positifs + Faux négatifs)
- Spécificité = Vrais négatifs / (Vrais négatifs + Faux positifs)
- Valeur prédictive positive = Vrais positifs / (Vrais positifs + Faux positifs)
- Valeur prédictive négative = Vrais négatifs / (Vrais négatifs + Faux négatifs)
Essais cliniques : Comparez traitement × guérison pour évaluer l’efficacité thérapeutique. Le risque relatif (RR) et la réduction absolue du risque (RAR) quantifient le bénéfice clinique.
Et si vous lisiez ensuite : Facturation électronique 2025 – Notre top 7 des plateformes agréées à choisir ?
Sciences sociales et enquêtes d’opinion
Analyse des sondages électoraux : Croisez catégorie sociodémographique × intention de vote pour identifier les bases électorales. Les résidus standardisés révèlent les sur-représentations : +3,8 pour « Ouvriers × Candidat A » indique un soutien fort dans cette catégorie.
Études sociologiques : Examinez niveau d’éducation × opinion sur une réforme pour analyser comment les attitudes varient selon le capital culturel. L’analyse stratifiée par tranche d’âge révèle si cette association est homogène ou varie générationnellement.
Recherche en éducation : Croisez méthode pédagogique × réussite des étudiants pour évaluer l’efficacité de différentes approches d’enseignement. Contrôlez l’effet du niveau initial des étudiants en stratifiant l’analyse.
Visualisation des tableaux de contingence
Graphiques en barres groupées et empilées
Le graphique en barres groupées juxtapose les barres correspondant aux différentes modalités de la seconde variable pour chaque modalité de la première, facilitant la comparaison entre catégories.
Le graphique en barres empilées superpose les segments dans une seule barre par modalité de la première variable, idéal pour visualiser la composition relative. Chaque segment représente une modalité de la seconde variable, et la hauteur totale reflète l’effectif total.
Conseils de mise en forme :
- Utilisez des couleurs contrastées et accessibles
- Ajoutez des étiquettes de données sur les barres
- Incluez une légende claire
- Adaptez l’échelle des axes pour éviter les distorsions
Heatmaps et graphiques spécialisés
La lecture graphique guide immédiatement votre attention vers les associations pertinentes sans examen systématique de toutes les cellules.
La mosaïque plot offre une représentation élégante : chaque cellule est un rectangle dont la surface est proportionnelle à l’effectif. La largeur de chaque colonne reflète l’effectif marginal en colonne, la hauteur reflète l’effectif marginal en ligne. Une cellule anormalement grande ou petite révèle instantanément les sur-représentations et sous-représentations.

Les heatmaps (cartes de chaleur) codent chaque cellule par une couleur dont l’intensité reflète l’effectif ou le pourcentage :
- Couleurs chaudes (rouge, orange) : associations fortes
- Couleurs froides (bleu, vert) : associations faibles
Le graphique en réseau représente chaque modalité par un nœud, avec des arêtes dont l’épaisseur reflète la force de l’association. Cette représentation révèle des clusters de modalités fortement associées et la structure globale des interdépendances.
Tableaux de contingence multidimensionnels
Lorsque deux variables ne suffisent pas, les tableaux multidimensionnels révèlent des interactions subtiles invisibles dans l’analyse bivariée.
Analyse de trois variables ou plus
Le tableau à trois dimensions se visualise comme une succession de tableaux bidimensionnels, chacun correspondant à une modalité de la troisième variable.
Pour étudier Genre × Satisfaction selon la tranche d’âge, construisez :
- Un tableau pour les 18-30 ans
- Un autre pour les 31-45 ans
- Un troisième pour les 46-60 ans
- Un dernier pour les plus de 60 ans
Cette stratification révèle si l’association entre genre et satisfaction varie selon l’âge.
Le paradoxe de Simpson illustre comment une tendance dans les données agrégées peut s’inverser dans les données stratifiées. Un traitement médical peut sembler globalement moins efficace qu’un placebo, mais en stratifiant selon la gravité initiale, s’avérer plus efficace dans chaque strate. L’effet global s’explique par une répartition déséquilibrée des patients graves.
Le test de Cochran-Mantel-Haenszel teste l’association entre deux variables en contrôlant l’effet d’une ou plusieurs variables de stratification, fréquemment utilisé en épidémiologie pour ajuster l’effet d’un facteur d’exposition en tenant compte de facteurs confondants.
Analyse des correspondances
L’analyse des correspondances (AFC) projette les modalités d’un tableau de contingence dans un espace géométrique de faible dimension (généralement deux). Elle transforme les lignes et colonnes en points où les distances reflètent les similarités de profils.
Lecture du graphique :
- Modalités fréquentes : près de l’origine
- Modalités rares : à la périphérie
- Modalités de variables différentes proches : statistiquement associées
Si « Cadre supérieur » et « Opéra » se situent à proximité, cela indique que les cadres supérieurs fréquentent proportionnellement davantage les opéras.
L’analyse des correspondances multiples (ACM) étend cette logique à plus de deux variables qualitatives, révélant des groupes homogènes d’individus et leurs caractéristiques définitoires. Elle se combine souvent avec une classification ascendante hiérarchique pour identifier précisément ces segments.
Interprétation des axes : Chaque axe capture une dimension de variation. Le premier axe pourrait opposer catégories socioprofessionnelles supérieures aux catégories populaires, le second distinguerait jeunes et seniors.
Calculez les contributions des modalités aux axes pour identifier lesquelles jouent un rôle structurant. Mesurez la qualité de représentation de chaque modalité :
- Certaines sont excellemment représentées sur les deux premiers axes
- D’autres nécessitent l’examen d’axes supplémentaires
Cette vigilance évite de sur-interpréter des proximités apparentes résultant d’une mauvaise projection dans l’espace bidimensionnel.








0 commentaires