Effets de variables socio-démographiques issues des DSN sur les durées d’incapacité temporaire

Page précédente
Faire suivre ce document

Domaine(s)Mémoire
formation(s)ISFA () / resp.: / intervenant:
Show details for Informations sur les documentsInformations sur les documents
Hide details for Informations sur les documentsInformations sur les documents

Type de document Mémoires
sociétéAXA
Auteur(s) CONTAMIN B.
Numéro
Date de référence 11/27/2018

Mémoire confidentiel jusqu'au 27/11/2023

Résumé

La DSN (Déclaration Sociale Nominative) est une règlementation qui va amener de nombreuses opportunités d’améliorer la qualité et la richesse des données servant à estimer les lois de maintien en arrêt maladie. Nous avons basé cette étude sur une base de données interne de sinistres, enrichie grâce à la DSN de variables décrivant les caractéristiques de l’employé (Sexe, CSP), de l’environnement de son entreprise (localisation, secteur d’activité, …) ou de son lien à cette entreprise (Franchise, ancienneté). Notre objectif était alors d’évaluer la pertinence d’utiliser les variables rendues nouvellement disponibles par la DSN comme variable explicatives des durées d’arrêt maladie. L’étude des effets de chaque variable nous a permis de répondre favorablement à cette question : ces variables ont un effet significatif sur le risque de maintien en maladie, et ce peut être bénéfique d’intégrer cet effet dans un modèle de tarification. De plus, nous avons pu observer que cet effet va en général à l’encontre de l’effet de la même variable sur la fréquence des sinistres : lorsque l’on observe des arrêts de travail plus fréquents sous l’incidence d’une variable, ils sont en général également plus courts. Au-delà de ces constatations qualitatives, il est intéressant de citer les méthodes qui ont été mises en place pour arriver à quantifier ces effets et les intégrer dans un modèle de tarification. Nous avons tout d’abord accompli un travail important pour l’obtention des données. L’extraction des données de durée de la base comptable, la jointure de ces données avec les données DSN et la vérification de la cohérence de ces données sont des étapes délicates et importantes pour l’étude. De plus, une étape de classification a été nécessaire de façon à obtenir des variables discrètes de granularité exploitable. Il est assez rare de mettre en oeuvre ce type de méthode sur des données de durées, et un soin particulier a été porté sur la recherche de dissimilarités pertinentes permettant de mesurer les différences entre des échantillons de données censurées. Ensuite, 3 modèles d’estimation de la durée ont été étudiés : le modèle de Kaplan Meier, le modèle de Cox et le modèle additif d’Aalen. Les deux derniers modèles permettent d’intégrer l’effet de variables explicatives. Le modèle additif d’Aalen est apparu bien plus adapté que le modèle de Cox à traduire l’influence de variables sur la durée. La principale explication s’énonce pour nous de la façon suivante : les statistiques calculées dans le cadre du modèle de Cox sont principalement influencées par les arrêts courts, alors que l’on sait que les arrêts longs ont une part très importante dans le coût moyen des sinistres. Cette constatation, et la disqualification du modèle de Cox, sont assez généralement partagées dans les études concernant les durées d’arrêts maladie. Nous avons donc par la suite travaillé sur le modèle de Aalen, dont il a fallu ajuster la procédure de calcul pour prendre en compte le fait qu’une des variables explicatives - la franchise – se trouve être également une variable de troncature. De plus, une procédure de lissage et de construction d’une table de maintien a été proposée, afin que le résultat de l’estimation du modèle puisse être exploité aisément dans un modèle de tarification. Enfin, nous proposons 3 modèles, qui diffèrent par leur stratification et le choix de leurs variables explicatives, et nous comparons leur ajustement et pouvoir explicatif.

Abstract

DSN is a new French regulation for exchanging data among the social administrations. It will bring opportunities to improve the quality and richness of the data used by insurances, in order to estimate the experience tables for the maintenance into disability. We based this study on the company’s database of claims, enriched by the DSN variables that represent the characteristics of the employee (Sex, socio-professional category), the environment of his company (location, industry, ... ) or his working contract (deductible, seniority in the company). Our objective was then to evaluate the relevance of using the variables made newly available by the DSN as an explanatory variable of the duration of sick leave. This was achieved by studying the effects of each variable: these variables do have a significant effect on durations, and it may be beneficial to integrate this effect into a pricing model. We have also observed that the effect on duration risk generally goes against the effect of the same variable on the frequency of claims: when the sick leaves goes more frequent by the effect of one variable, they become generally also shorter. Beyond these qualitative findings, it is interesting to mention the methods that have been put in place to quantify these effects and integrate them into a pricing model. First, we did a lot of work to get the data. The extraction of the duration data from the accounting database, merging these data with the DSN data and the verification of the consistency of these data are delicate and important tasks for the following study. In addition, a cluster analysis was necessary in order to obtain discrete variables of fitted granularity. It is quite rare to implement this type of method on censured data, and we had to implement relevant dissimilarities that could measure the difference between samples of censored data. Then, 3 models of duration estimation were studied: the Kaplan Meier estimator, the multiplicative Cox hazards model and the Aalen additive hazards model. The last two models make it possible to integrate the effect of explanatory variables. The additive hazards model appeared much more relevant to measure the effect of variables on the maintenance of disability than the Cox model, which is not suited for our study. Our main explanation can be simply stated as follows: the statistics calculated under the Cox model are mainly influenced by the short sick leaves, while we know that the long sick leaves play a very important part in the average cost of claims. This finding is fairly shared in studies that concern the duration of sick leave. Then we worked on the additive hazards model, which calculation procedure had to be adjusted to take into account the fact that one of the explanatory variables - the deductible - is also the truncation. In addition, a procedure for smoothing and constructing an experience table has been proposed, so that the result of the estimation of the model can be easily integrated in a pricing model. Finally, we propose 3 models, which differ from one another by their stratification and the choice of the explanatory variables, and we compare their adjustment and explanatory power.


Lien permament : https://www.ressources-actuarielles.net/C12574E200674F5B/0/424B26474502665DC12582DD002A4D4E