Le domaine des variables qualitatives a longtemps été un parent pauvre de l'économétrie. Mais, dans le dernier tiers du XXe siècle, il a connu un considérable gain d’intérêt sous l’effet de deux phénomènes principaux : le développement de l’analyse économique des choix au cas où seule une gamme limitée d’alternatives s’ouvre au décideur ; la volonté d’utiliser au mieux les informations sur les comportements des clients à présent enregistrés dans des bases de données informatisées. On dispose à présent, dans ce domaine, d’une riche matière théorique et technique, dont, d’ailleurs, les progrès ne sont pas achevés.
L’ouvrage fournit un exposé approfondi de ces modélisations économétriques contemporaines des variables qualitatives (dichotomiques ou polytomiques) et de leur utilisation en particulier en matière de scoring (score d’attrition, de risque, de fraude…). Ses études de cas permettent au lecteur d’appliquer ces notions à la résolution de problèmes concrets tout en se familiarisant aux procédures SAS®.
Il transmet les connaissances et compétences indispensables à tout étudiant engagé dans une formation d’économie appliquée ou de marketing quantitatif. Il intéressera également les étudiants inscrits dans un cursus d’ingénierie statistique, de traitement de la donnée massive, de sociologie quantitative et les praticiens (chargés d’études, statisticiens des entreprises et des administrations, data scientists ou data analysts) qui doivent extraire des données les évaluations synthétiques nécessaires à la prise de décision. Il sera également utile aux chercheurs en sciences humaines et sociales qui affrontent, dans un but, cette fois de pure connaissance, le même genre de matériau statistique.
Introduction
Première partie. Théorie
Chapitre 1. Le modèle linéaire et les raisons de son dépassement
1. Le modèle linéaire dans le cas d'une variable dichotomique
1.1. Signification du modèle linéaire et de ses coefficients
1.2. L'estimation des coefficients du modèle et la variance de ces estimations
1.3. Le problème de l’hétéroscédasticité et ses solutions
2. L’inconsistance du modèle linéaire et son dépassement : les modèles Logit et Probit
2.1. L’inconsistance du modèle linéaire
2.2. Le dépassement du modèle linéaire : les modèles logit et probit
2.2.1. Le modèle logit et son hypothèse sous-jacente
2.2.2. Le modèle probit, l’hypothèse d’une variable latente et les problèmes d’interprétation des coefficients
2.3. Le choix de la spécification d’un modèle dichotomique
2.3.1. Le modèle linéaire
2.3.2. Le modèle probit
2.3.3. Le modèle Logit
Chapitre 2. Estimation et test du modèle logit
1. L’estimation des paramètres du modèle
1.1. Rappels sur la méthode du maximum de vraisemblance
1.1.1. Définitions préalables et application à l’estimation d’une proportion
1.1.2. Rappel des propriétés générales des estimateurs du maximum de vraisemblance
1.2. Application de la méthode du maximum de vraisemblance à l’estimation des paramètres du modèle logit
1.2.1. La détermination des coefficients du modèle
1.2.2. La matrice des variances-covariances des estimateurs des coefficients du modèle
2. Le test du modèle logit
2.1. Les restrictions sur le modèle initial
2.2. Les tests de restriction
2.2.1. Les tests de Wald
2.2.2. Les tests du rapport de vraisemblance
2.2.3. Le choix d’une voie de test
3. Les infractions aux hypothèses sous-jacentes de la modélisation et leurs effets
3.1. La corrélation entre variables explicatives
3.2. L’omission d’une variable explicative importante
3.3. L’erreur de spécification
3.4. L’hétéroscédasticité et l’autocorrélation du résidu
3.4.1. Les conséquences de l’autocorrélation du résidu
3.4.2. Les conséquences de l’hétéroscédasticité du résidu
3.5. La pluralité de régimes
Chapitre 3. La qualité de l’ajustement et des prévisions réalisées
1. La qualité de l’ajustement
1.1. La filiation directe du coefficient de détermination : le pseudo-R2 « classique » et celui de Mac Kelvey et Zavoina
1.1.1. Le pseudo-R2 « classique » ou d’Efron
1.1.2. Le pseudo-R2 de Mac Kelvey et Zavoina
1.2. Les pseudo-R2 déduits de la vraisemblance : Cox et Snell, Nagelkerke et McFadden
1.2.1. Le pseudo-R2 de Cox et Snell et la correction de Nagelkerke
1.2.2. Le pseudo-R2 de McFadden
2. La prévision et ses erreurs
2.1. Fondements économico-statistiques du pari et erreurs de prévision
2.1.1. Une première approche du pari
2.1.2. Une approche économique du pari
2.2. La courbe ROC et ses fondements
2.2.1. Un détour médical
2.2.2. Retour au problème de la qualité des prévisions réalisée à l’aide d’un modèle logit
Chapitre 4. Les modèles polytomiques
1. Le modèle logit polytomique ordonné
1.1. L’hypothèse d’une variable latente à résidu logistique et la formulation du modèle
1.2. Signification des coefficients et hypothèse fondamentale du modèle
2. Le logit multinomial, modèle polytomique non ordonné
2.1. Formulation du modèle et liens avec le modèle logit dichotomique
2.1.1. Les deux expressions du modèle logit multinomial
2.1.2. Liens entre le logit multinomial et le logit dichotomique
2.2. Interprétation des coefficients et mesure de l’impact d’une variable sur les probabilités
2.2.1. L’impossibilité de porter un diagnostic sur l’impact d’une variable sur la seule vue de son coefficient
2.2.2. Une mesure synthétique de l’effet d’une variable
2.3. Utilisation du modèle pour la prévision
2.3.1. Finalités et méthodes de la prévision
2.3.2. Risques d’erreur et mesure de la réduction des risques permise par l’utilisation du modèle
3. La modélisation des choix : le modèle logit « conditionnel »
3.1. Fondements du modèle logit « conditionnel »
3.1.1. De la logique des choix discrets aux probabilités associées aux différentes options
3.1.2. Propriété fondamentale du modèle et expressions alternatives de celui-ci
3.2. Interprétation des coefficients du modèle logit conditionnel
3.3. Test de l’hypothèse IIA et remèdes possibles à la non indépendance des alternatives
3.3.1. Le test de l’hypothèse d’indépendance relative aux hypothèses non retenues
3.3.2. Modèles logits alternatifs : le logit hiérarchique et le logit emboîté
Deuxième partie. Application sous SAS®
Cas n° 1. Étude des déterminants économiques ou sociaux de la possession d’un lave-vaisselle
Corrigé du Cas n° 1
Préparation des données
1. Première étape
2. Deuxième étape
3. Comparaison des deux modèles
4. Conclusion
Cas n° 2. Établissement d’un score informatif pour le concours d’entrée d’une école universitaire d’économie et de management
1re partie de l’étude de cas
2e partie de l’étude de cas
Corrigé du cas n° 2
Première partie
Préparation des données
1. Première étape : modèle linéaire de la note
2. Deuxième étape : modèle linéaire de la probabilité d’admissibilité
3. Troisième étape : modèle logit de la probabilité d’admissibilité
4. Quatrième étape : modélisation probit
5. Comparaison des résultats obtenus dans les quatre modélisations
6. Conclusion
Deuxième partie
1. Remarques préalables
2. La courbe ROC et le choix d’un seuil d’admissibilité sur dossier
3. Conclusion
Cas n° 3. Étude des déterminants socio-économiques de l’audience des chaînes de télévision
Corrigé du Cas n° 3
1. La modélisation multinomiale et ses résultats
1.1. Préparation des données
1.2. Écriture de la procédure et codage des modalités des variables qualitatives
1.3. Présentation des résultats
2. L’utilisation du modèle pour la « prévision »
3. La mesure des effets des variables sur le choix d’un type de chaîne
3.1. Les facteurs principaux
3.2. Les facteurs secondaires
3.3. Les facteurs marginaux
4. Conclusion
Cas n° 4. Déterminants économiques du choix d’un mode de transport
Corrigé du Cas n° 4
1. Ajustement d’un modèle logit conditionnel unique sur l’ensemble des données
1.1. Préparation des données
1.2. La procédure d’ajustement du modèle et les sorties SAS®
1.3. Les prévisions de choix modal
1.4. L’introduction de préférences modales
2. L’introduction de variables supplémentaires dans le modèle logit conditionnel
2.1. De l’intérêt d’intégrer de nouvelles variables comme déterminants du choix modal
2.2. L’introduction directe de la variable revenu dans la modélisation
2.3. L’introduction indirecte de la variable revenu dans la modélisation
3. Conclusion