Tableau de contingence : définition et utilisation en statistiques

Écrit par Marc



vendredi, Oct 24



Emploi et formation | Entreprenariat

Panneau pédagogique affichant des tableaux de contingence et étapes du test du Chi² pour analyser des variables catégorielles

Le tableau de contingence est un outil statistique qui permet de croiser deux variables qualitatives et d’observer immédiatement si elles présentent un lien statistique. Cette méthode révèle des patterns comportementaux, des tendances de marché et des corrélations dans vos jeux de données.

Sommaire

Qu’est-ce qu’un tableau de contingence ?

Le tableau de contingence est un tableau à double entrée qui présente la répartition conjointe de deux variables qualitatives. Chaque cellule contient un effectif correspondant simultanément à une modalité de la première variable (en ligne) et à une modalité de la seconde variable (en colonne).

Structure et composantes d’un tableau de contingence

La structure repose sur une architecture matricielle : les modalités de la première variable en lignes, celles de la seconde en colonnes.

Exemple pratique avec niveau d’éducation et catégorie socioprofessionnelle :

Niveau d’éducation : Bac, Licence, Master, Doctorat (4 lignes)
Catégorie socioprofessionnelle : Employé, Cadre, Profession libérale (3 colonnes)
Résultat : 12 cellules contenant les effectifs observés

Les totaux marginaux sont essentiels : les totaux de lignes indiquent l’effectif total pour chaque modalité de la variable en ligne, les totaux de colonnes pour chaque modalité en colonne. L’effectif total global, en bas à droite, correspond au nombre total d’observations.

Vous pouvez calculer :

Pourcentages en ligne (quel est le pourcentage de diplômés du Master parmi les cadres ?)
Pourcentages en colonne (quelle proportion de l’échantillon représentent les employés ayant un niveau Licence ?)
Pourcentages par rapport au total général

Différence entre variables qualitatives et quantitatives

Les variables qualitatives (catégorielles) décrivent des caractéristiques non mesurables numériquement :

Variables nominales : sans ordre naturel (couleur des yeux, type de produit acheté, région d’origine)
Variables ordinales : avec un ordre logique (niveau de satisfaction, catégorie d’âge, niveau d’études)

Les variables quantitatives prennent des valeurs numériques mesurables :

Variables discrètes : certaines valeurs uniquement (nombre d’enfants, nombre de transactions)
Variables continues : n’importe quelle valeur dans un intervalle (poids, température, chiffre d’affaires)

Le tableau de contingence s’applique prioritairement aux variables qualitatives, mais vous pouvez l’utiliser avec des variables quantitatives en les transformant en classes (ex : âge en tranches 18-25 ans, 26-35 ans).

Comment construire un tableau de contingence ?

Préparation des données et calcul des effectifs

Avant de construire le tableau, nettoyez et standardisez vos données :

Absence de valeurs manquantes ou aberrantes
Modalités clairement définies et mutuellement exclusives
Cohérence des codages dans tout le jeu de données

Déterminez les modalités de chaque variable, créez la structure vide avec une ligne « Total » en bas et une colonne « Total » à droite. Parcourez ensuite votre jeu de données observation par observation : pour un client de genre féminin ayant exprimé une satisfaction « Élevée », ajoutez 1 à la cellule située à l’intersection « Femme » × « Satisfaction élevée ».

Utilisation d’Excel pour créer un tableau de contingence

Excel propose le tableau croisé dynamique (TCD) qui automatise la construction. Sélectionnez votre plage de données, accédez au menu « Insertion » puis « Tableau croisé dynamique ».

Configuration du TCD :

Glissez la première variable dans la zone « Lignes »
Glissez la seconde variable dans la zone « Colonnes »
Glissez n’importe quelle variable dans la zone « Valeurs » et sélectionnez « Nombre »

Excel calcule automatiquement les effectifs et les totaux marginaux. Pour afficher les pourcentages, cliquez sur une cellule du TCD, puis « Analyser » > « Paramètres des champs de valeur » > « Afficher les valeurs ». Choisissez « % du total de la ligne », « % du total de la colonne » ou « % du total ».

Conseils pratiques :

Utilisez la mise en forme conditionnelle pour identifier rapidement les cellules avec effectifs élevés ou faibles
Créez plusieurs TCD sur la même feuille pour comparer différentes représentations
Exploitez les segments pour filtrer dynamiquement

Construction avec Python et R

Python avec pandas :

import pandas as pd

# Créer un DataFrame
df = pd.DataFrame({
    'Genre': ['F', 'M', 'F', 'M', 'F'],
    'Satisfaction': ['Élevée', 'Moyenne', 'Élevée', 'Faible', 'Moyenne']
})

# Créer le tableau de contingence
tableau = pd.crosstab(df['Genre'], df['Satisfaction'], margins=True)
print(tableau)

Le paramètre margins=True ajoute automatiquement les totaux marginaux. Pour calculer les pourcentages : pd.crosstab(df['Genre'], df['Satisfaction'], normalize='all') (total général), normalize='index' (lignes) ou normalize='columns' (colonnes).

R avec le package table :

# Créer des vecteurs
genre <- c('F', 'M', 'F', 'M', 'F')
satisfaction <- c('Élevée', 'Moyenne', 'Élevée', 'Faible', 'Moyenne')

# Créer le tableau de contingence
tableau <- table(genre, satisfaction)
print(tableau)

# Ajouter les totaux marginaux
addmargins(tableau)

La fonction prop.table() calcule les proportions : prop.table(tableau) (proportions globales), prop.table(tableau, 1) (proportions en ligne), prop.table(tableau, 2) (proportions en colonne).

Avec NumPy et SciPy pour analyses avancées :

import numpy as np
from scipy.stats import chi2_contingency

# Tableau de contingence sous forme de matrice
tableau = np.array([[20, 15], [10, 25]])

# Test du Chi-deux
chi2, p_value, dof, expected = chi2_contingency(tableau)
print(f"Chi-deux : {chi2}, p-value : {p_value}")

Interprétation des résultats d’un tableau de contingence

Lecture des effectifs et des pourcentages

L’interprétation commence par l’examen des effectifs bruts pour identifier les combinaisons de modalités les plus et les moins fréquentes. Les totaux marginaux indiquent la distribution de chaque variable prise isolément.

Les pourcentages en ligne répondent à : « Parmi les individus de cette catégorie (ligne), quelle proportion présente telle caractéristique (colonne) ? ». Les pourcentages en colonne inversent la perspective : « Parmi les individus présentant cette caractéristique (colonne), quelle proportion appartient à telle catégorie (ligne) ? ».

Exemple concret :

Genre	Satisfait	Insatisfait	Total
Femme	45 (75%)	15 (25%)	60
Homme	25 (62,5%)	15 (37,5%)	40
Total	70	30	100

Lecture en ligne : 75% des femmes sont satisfaites contre 62,5% des hommes. Lecture en colonne : Parmi les satisfaits, 64,3% sont des femmes (45/70).

Tests statistiques : le test du Chi-deux

Le test du Chi-deux d’indépendance détermine si l’association observée entre deux variables est statistiquement significative ou résulte du hasard.

Équipe multidisciplinaire discutant autour de tableaux de contingence et segmentation utilisateur

Hypothèses du test :

H0 (hypothèse nulle) : Les deux variables sont indépendantes
H1 (hypothèse alternative) : Les deux variables sont dépendantes

Calcul de la statistique :

La formule est : χ² = Σ [(Observé – Attendu)² / Attendu]

Pour chaque cellule, l’effectif attendu sous H0 se calcule : Attendu = (Total ligne × Total colonne) / Total général

Exemple :

Pour la cellule Femme-Satisfait : Attendu = (60 × 70) / 100 = 42

χ² = [(45-42)²/42] + [(15-18)²/18] + [(25-28)²/28] + [(15-12)²/12] = 0,21 + 0,50 + 0,32 + 0,75 = 1,78

Décision statistique :

Avec 1 degré de liberté (ddl = (nombre de lignes – 1) × (nombre de colonnes – 1) = 1×1 = 1) et α = 0,05, la valeur critique du Chi-deux est 3,84. Comme 1,78 < 3,84, on ne rejette pas H0 : l’association entre genre et satisfaction n’est pas statistiquement significative.

Conditions d’application :

Effectifs attendus ≥ 5 dans au moins 80% des cellules
Aucun effectif attendu < 1
Si ces conditions ne sont pas respectées, utilisez le test exact de Fisher (tableaux 2×2) ou regroupez certaines modalités

Mesures d’association :

Le Chi-deux ne mesure pas l’intensité de la relation. Utilisez :

V de Cramér : varie de 0 (indépendance) à 1 (association parfaite), calculé par V = √(χ²/(n × min(r-1, c-1)))
Coefficient de contingence : C = √(χ²/(χ²+n))
Phi (φ) : pour tableaux 2×2, φ = √(χ²/n)

Calcul et interprétation des résidus

Les résidus mesurent l’écart entre effectifs observés et attendus. Le résidu standardisé se calcule : r = (Observé – Attendu) / √Attendu

Règle d’interprétation :

|r| > 2 : écart significatif au seuil de 5%
|r| > 2,58 : écart significatif au seuil de 1%
r positif : sur-représentation (association positive)
r négatif : sous-représentation (association négative)

Les résidus permettent d’identifier quelles cellules contribuent le plus à la dépendance globale. Dans une analyse marketing, un résidu de +3,2 pour « Cadres × Achat produit premium » révèle une forte affinité, orientant vos stratégies de ciblage.

Limites et précautions d’interprétation

Corrélation n’est pas causalité : Une association statistique entre deux variables ne prouve pas qu’une variable cause l’autre. Une troisième variable (confondante) peut expliquer l’association observée.

Variables confondantes : L’association apparente entre genre et satisfaction pourrait s’expliquer par l’âge si les femmes de l’échantillon sont en moyenne plus jeunes et que les jeunes sont plus satisfaits.

Taille de l’échantillon : Avec un échantillon très grand, même une association faible devient statistiquement significative. Combinez toujours le test d’hypothèse avec une mesure de l’effet (V de Cramér).

Agrégation des données : Le paradoxe de Simpson montre qu’une tendance dans les données agrégées peut s’inverser dans les données stratifiées. Vérifiez toujours la stabilité de vos conclusions en stratifiant selon des variables potentiellement confondantes.

Applications pratiques des tableaux de contingence

Marketing et analyse comportementale

Les tableaux de contingence permettent d’identifier les segments de clientèle et leurs comportements d’achat spécifiques.

Segmentation client : Croisez catégorie socioprofessionnelle × type de produit acheté pour identifier les produits sur-représentés dans chaque segment. Un V de Cramér de 0,42 révèle une association modérée à forte, justifiant des stratégies marketing différenciées.

A/B testing : Croisez version du site web × taux de conversion pour évaluer statistiquement l’impact d’une modification. Le test du Chi-deux détermine si la différence de conversion entre les versions A et B est significative.

Version	Conversion	Non-conversion	Total	Taux
A	150	850	1000	15%
B	180	820	1000	18%

Un test du Chi-deux avec p-value < 0,05 confirme que la version B performe significativement mieux.

Analyse des paniers d’achat : Croisez produit A acheté × produit B acheté pour identifier les co-achats fréquents et optimiser le merchandising ou les recommandations.

Médecine et épidémiologie

Études cas-témoins : Le tableau de contingence 2×2 compare l’exposition à un facteur de risque entre malades (cas) et non-malades (témoins).

Groupe	Exposés	Non exposés	Total
Cas (malades)	a	b	a+b
Témoins	c	d	c+d

L’odds ratio mesure l’association : OR = (a×d)/(b×c). Un OR > 1 suggère que l’exposition augmente le risque de maladie.

Dépistage et diagnostic : Croisez résultat du test × présence réelle de la maladie pour calculer :

Sensibilité = Vrais positifs / (Vrais positifs + Faux négatifs)
Spécificité = Vrais négatifs / (Vrais négatifs + Faux positifs)
Valeur prédictive positive = Vrais positifs / (Vrais positifs + Faux positifs)
Valeur prédictive négative = Vrais négatifs / (Vrais négatifs + Faux négatifs)

Essais cliniques : Comparez traitement × guérison pour évaluer l’efficacité thérapeutique. Le risque relatif (RR) et la réduction absolue du risque (RAR) quantifient le bénéfice clinique.

Et si vous lisiez ensuite : Facturation électronique 2025 – Notre top 7 des plateformes agréées à choisir ?

Sciences sociales et enquêtes d’opinion

Analyse des sondages électoraux : Croisez catégorie sociodémographique × intention de vote pour identifier les bases électorales. Les résidus standardisés révèlent les sur-représentations : +3,8 pour « Ouvriers × Candidat A » indique un soutien fort dans cette catégorie.

Études sociologiques : Examinez niveau d’éducation × opinion sur une réforme pour analyser comment les attitudes varient selon le capital culturel. L’analyse stratifiée par tranche d’âge révèle si cette association est homogène ou varie générationnellement.

Recherche en éducation : Croisez méthode pédagogique × réussite des étudiants pour évaluer l’efficacité de différentes approches d’enseignement. Contrôlez l’effet du niveau initial des étudiants en stratifiant l’analyse.

Visualisation des tableaux de contingence

Graphiques en barres groupées et empilées

Le graphique en barres groupées juxtapose les barres correspondant aux différentes modalités de la seconde variable pour chaque modalité de la première, facilitant la comparaison entre catégories.

Le graphique en barres empilées superpose les segments dans une seule barre par modalité de la première variable, idéal pour visualiser la composition relative. Chaque segment représente une modalité de la seconde variable, et la hauteur totale reflète l’effectif total.

Conseils de mise en forme :

Utilisez des couleurs contrastées et accessibles
Ajoutez des étiquettes de données sur les barres
Incluez une légende claire
Adaptez l’échelle des axes pour éviter les distorsions

Heatmaps et graphiques spécialisés

La lecture graphique guide immédiatement votre attention vers les associations pertinentes sans examen systématique de toutes les cellules.

La mosaïque plot offre une représentation élégante : chaque cellule est un rectangle dont la surface est proportionnelle à l’effectif. La largeur de chaque colonne reflète l’effectif marginal en colonne, la hauteur reflète l’effectif marginal en ligne. Une cellule anormalement grande ou petite révèle instantanément les sur-représentations et sous-représentations.

Schéma circulaire illustrant les liens entre résilience et tableaux de contingence dans la gestion des risques

Les heatmaps (cartes de chaleur) codent chaque cellule par une couleur dont l’intensité reflète l’effectif ou le pourcentage :

Couleurs chaudes (rouge, orange) : associations fortes
Couleurs froides (bleu, vert) : associations faibles

Le graphique en réseau représente chaque modalité par un nœud, avec des arêtes dont l’épaisseur reflète la force de l’association. Cette représentation révèle des clusters de modalités fortement associées et la structure globale des interdépendances.

Tableaux de contingence multidimensionnels

Lorsque deux variables ne suffisent pas, les tableaux multidimensionnels révèlent des interactions subtiles invisibles dans l’analyse bivariée.

Analyse de trois variables ou plus

Le tableau à trois dimensions se visualise comme une succession de tableaux bidimensionnels, chacun correspondant à une modalité de la troisième variable.

Pour étudier Genre × Satisfaction selon la tranche d’âge, construisez :

Un tableau pour les 18-30 ans
Un autre pour les 31-45 ans
Un troisième pour les 46-60 ans
Un dernier pour les plus de 60 ans

Cette stratification révèle si l’association entre genre et satisfaction varie selon l’âge.

Le paradoxe de Simpson illustre comment une tendance dans les données agrégées peut s’inverser dans les données stratifiées. Un traitement médical peut sembler globalement moins efficace qu’un placebo, mais en stratifiant selon la gravité initiale, s’avérer plus efficace dans chaque strate. L’effet global s’explique par une répartition déséquilibrée des patients graves.

Le test de Cochran-Mantel-Haenszel teste l’association entre deux variables en contrôlant l’effet d’une ou plusieurs variables de stratification, fréquemment utilisé en épidémiologie pour ajuster l’effet d’un facteur d’exposition en tenant compte de facteurs confondants.

Analyse des correspondances

L’analyse des correspondances (AFC) projette les modalités d’un tableau de contingence dans un espace géométrique de faible dimension (généralement deux). Elle transforme les lignes et colonnes en points où les distances reflètent les similarités de profils.

Lecture du graphique :

Modalités fréquentes : près de l’origine
Modalités rares : à la périphérie
Modalités de variables différentes proches : statistiquement associées

Si « Cadre supérieur » et « Opéra » se situent à proximité, cela indique que les cadres supérieurs fréquentent proportionnellement davantage les opéras.

L’analyse des correspondances multiples (ACM) étend cette logique à plus de deux variables qualitatives, révélant des groupes homogènes d’individus et leurs caractéristiques définitoires. Elle se combine souvent avec une classification ascendante hiérarchique pour identifier précisément ces segments.

Interprétation des axes : Chaque axe capture une dimension de variation. Le premier axe pourrait opposer catégories socioprofessionnelles supérieures aux catégories populaires, le second distinguerait jeunes et seniors.

Calculez les contributions des modalités aux axes pour identifier lesquelles jouent un rôle structurant. Mesurez la qualité de représentation de chaque modalité :

Certaines sont excellemment représentées sur les deux premiers axes
D’autres nécessitent l’examen d’axes supplémentaires

Cette vigilance évite de sur-interpréter des proximités apparentes résultant d’une mauvaise projection dans l’espace bidimensionnel.

Vous pourriez aussi aimer

La psychologie des espaces de travail virtuels : est-ce que ça boost vraiment la concentration ?

Juin 12, 2026

Qu’est-ce que le cold emailing ? Définition et fonctionnement

Juin 12, 2026

Comment faire un pitch deck convaincant ? Structure et conseils

Juin 11, 2026

Catégories

📁 Marketing digital
📁 Communication
📁 Design
📁 Développement web
📁 Formation
📁 Entrepreneuriat
📁 Divers

Articles en liens

La psychologie des espaces de travail virtuels : est-ce que ça boost vraiment la concentration ?

Juin 12, 2026

Depuis quelques années, le monde du boulot a pris un virage assez violent. On est passé des bureaux classiques avec open space, café tiède et réunions en salle grise, à des environnements complètement digitaux où tu peux bosser de n’importe où. Télétravail, hybride,...

Qu’est-ce que le cold emailing ? Définition et fonctionnement

Juin 12, 2026

Le paysage de la prospection commerciale a profondément muté ces dernières années. Si vous travaillez dans le développement commercial ou le marketing B2B, vous avez forcément croisé la route du "cold emailing". Ce levier, souvent mal compris ou confondu avec des...

Comment faire un pitch deck convaincant ? Structure et conseils

Juin 11, 2026

Réussir une levée de fonds ou convaincre des partenaires stratégiques dépend autant de la qualité de votre vision que de votre capacité à la condenser en une présentation percutante. Je considère le pitch deck non pas comme un simple document visuel, mais comme le fil...

Les leviers incontournables de communication pour un site e-commerce

Juin 10, 2026

Dans l’environnement particulièrement compétitif du commerce en ligne, chaque site e-commerce doit multiplier ses efforts pour attirer, engager puis fidéliser les consommateurs. Différents leviers de communication offrent aujourd’hui des solutions complémentaires pour...

Qu’est-ce que le Product-Led Growth (PLG) ? Définition et enjeux

Juin 10, 2026

Dans l'écosystème actuel des logiciels en tant que service (SaaS), la manière dont les entreprises acquièrent et conservent leurs clients a radicalement évolué. La méthode traditionnelle, qui repose sur une force commerciale agressive, cède de plus en plus souvent la...

Différence entre UX et UI design : comprendre les deux piliers du numérique

Juin 9, 2026

Dans le monde de la création digitale, on confond encore trop souvent l'UX et l'UI. Pourtant, ces deux disciplines sont aussi distinctes que complémentaires. Si vous souhaitez lancer un produit, une application ou un site web performant, il est vital de saisir que...

Marc

Je suis Marc, rédacteur freelance pour l’agence Ledigitalpourtous depuis 2 ans. Passionné par l’écriture et le digital, je crée des contenus clairs et optimisés SEO pour aider les marques à se connecter avec leur audience. Curieux et créatif, je m’inspire des tendances et de mes expériences pour proposer des textes percutants.

Tableau de contingence : définition et utilisation en statistiques

Écrit par Marc

vendredi, Oct 24

Emploi et formation | Entreprenariat

Qu’est-ce qu’un tableau de contingence ?

Structure et composantes d’un tableau de contingence

Différence entre variables qualitatives et quantitatives

Comment construire un tableau de contingence ?

Préparation des données et calcul des effectifs

Utilisation d’Excel pour créer un tableau de contingence

Construction avec Python et R

Interprétation des résultats d’un tableau de contingence

Lecture des effectifs et des pourcentages

Tests statistiques : le test du Chi-deux

Calcul et interprétation des résidus

Limites et précautions d’interprétation

Applications pratiques des tableaux de contingence

Marketing et analyse comportementale

Médecine et épidémiologie

Sciences sociales et enquêtes d’opinion

Visualisation des tableaux de contingence

Graphiques en barres groupées et empilées

Heatmaps et graphiques spécialisés

Tableaux de contingence multidimensionnels

Analyse de trois variables ou plus

Analyse des correspondances

Vous pourriez aussi aimer

Catégories

Articles en liens

0 commentaires

Soumettre un commentaire Annuler la réponse

Message de succès