People Analytics : Est-il possible de prédire le départ en retraite des collaborateurs ?

Malgré l’effervescence des dernières années autour du Big Data, les données RH sont encore sous-exploitées, alors que leur analyse pourrait permettre d’influencer, voire définir la stratégie RH d’une entreprise.

Un acteur de l’énergie souhaitait mettre à profit le grand volume de données à disposition pour utiliser le People Analytics comme un puissant levier d’efficacité. A ses côtés, nous avons étudié ces données afin de mieux prévoir les départs en retraite des collaborateurs.

Des gains financiers et organisationnels

Une meilleure prévision des départs en retraite revêt différents avantages : optimisation de la masse salariale, anticipation des transferts de compétences, préparation à temps des plans de succession…

En amont de l’étude, la prévision des départs en retraite était fondée uniquement sur l’âge des collaborateurs et le cadre légal. Il en résultait une erreur moyenne de 30 mois entre les prévisions de départ et les départs effectifs. L’ensemble des actions se fondant sur cette donnée, était donc bâti sur une hypothèse peu fiable.

Cette étude a été l’occasion de se pencher sur plusieurs milliers de départs en retraite sur les 17 dernières années afin de développer un modèle prédictif des départs en retraite.

Identifier les principales variables d’influence des départs en retraite

Avant de se lancer dans la construction d’un modèle de prédiction, une analyse descriptive des données passées a été menée pour décrypter le phénomène et identifier les variables explicatives les plus pertinentes à retenir. Ce travail consistait à visualiser l’évolution de l’âge de départ en retraite en fonction de différentes variables pour ensuite émettre des premières hypothèses telles que « L’âge de départ en retraite augmente avec le grade » ou « Les personnes avec le plus grand nombre d’enfants sont enclines à quitter l’entreprise plus tard ». À la suite de l’analyse descriptive, les variables démographiques (e.g. âge, nombre d’enfants à charge), liées au cadre légal (e.g. nombre de trimestres cotisés, âge légal de départ) et caractérisant le métier (e.g. date de prise de poste, métiers occupés, expatriation ou non) ont été retenues.

1 – Le modèle linéaire

Le premier modèle de prédiction était linéaire : l’âge de départ en retraite est modélisé comme une combinaison simple de différentes variables explicatives. Après plusieurs régressions, les variables telles que le nombre d’enfants à charge ou l’âge de début de carrière ont été mises de côté pour se concentrer sur l’âge légal de départ en retraite ou encore le nombre de trimestres cotisés. En ne conservant que ces variables de grande influence, le modèle linéaire définitif donnait une erreur moyenne de prévision de 11 mois.

2 – La forêt d’arbre aléatoires élaborée par Machine Learning

Afin de diminuer encore plus l’erreur moyenne, des algorithmes plus complexes ont été utilisés, faisant cette fois-ci appel au Machine Learning avec notamment la création d’un modèle de forêts aléatoires. L’estimation était plus précise, puisque l’erreur moyenne était réduite à 8 mois. L’inconvénient étant l’aspect « black box » du modèle : impossible de quantifier précisément l’impact de telle ou telle variable explicative sur l’âge de départ en retraite.

Une prévision budgétaire plus fiable

Avec le modèle de forêts aléatoires et son erreur moyenne de 8 mois, l’exercice de prévision de masse salariale fut nettement amélioré, passant de 24M€ d’incertitude budgétaire à seulement 6,5M€ pour 100 départs en retraite par an.

Les apports en termes de gestion des compétences et des recrutements sont plus difficilement mesurables, mais le travail a été facilité grâce à une erreur de prévision inférieure à l’année.