Amélioration des normes tarifaires de la Prévoyance grâce aux données DSN
Page précédente
Faire suivre
ce document
Domaine
(s)
Mémoire
formation(s)
ULP () / resp.: / intervenant:
Informations sur les documents
Informations sur les documents
Type de document
Mémoires
société
AG2R
Auteur(s)
WEILL L.
Numéro
Date de référence
12/10/2021
Résumé
Les acteurs de la Prévoyance collective font face aujourd’hui à des défis importants : le marché est de plus en plus concurrentiel et la dérive de l’arrêt de travail - déjà constatée avant la crise sanitaire - a été accélérée par la pandémie du COVID. Assureurs et institutions de Prévoyance (IP) doivent donc innover et saisir toutes les opportunités disponibles pour relever ces défis et mieux comprendre et maitriser le risque de l’arrêt de travail (AT). La DSN (Déclaration Sociale Nominative) présente justement une opportunité forte pour les IP disposant d’un portefeuille Prévoyance sans affiliation (le cas de l’organisme d’accueil). Obligatoire depuis 2017 pour toutes les entreprises du secteur privé employant des salariés, la DSN s’appuie sur des données de la paie et permet aux organismes assureurs de la Prévoyance d’avoir une vision fine et actualisée de la réalisation de l’arrêt de travail. Ces données permettent donc de supprimer la censure dans les observations : une vraie révolution pour un actuaire habitué à l’asymétrie de l’information ! Sans la DSN, l’IP n’observe que la population sinistrée et uniquement les sinistres dépassant la franchise du contrat. Avec la DSN, l’IP peut observer toute la population assurée et tous les arrêts. Il devient donc possible de faire des travaux de segmentation permettant de caractériser la population à risque. En addition à la disponibilité de la donnée, les acteurs du marché disposent de plus en plus d’outils de traitement de données massives (big data). Et, la communauté scientifique est bien avancée sur des algorithmes de segmentation basés sur la théorie du Machine Learning (ML). Ces algorithmes permettent d’expliciter des patterns dans des données volumineuses : une deuxième opportunité pour challenger les méthodes classiques de calcul du coût du risque et de sa tarification. Dans ce mémoire, on se propose d’exploiter la DSN afin de challenger les normes tarifaires existantes sur le risque AT en le modélisant avec les méthodes du ML. On se focalise sur les arrêts de travail de courte durée : arrêts non observés par l’assureur. En premier lieu, on présente les statistiques descriptives et une étude des corrélations entre les variables de la DSN et la réalisation de l’AT. Ensuite, l’objectif sera de modéliser la loi de fréquence et la loi de maintien des arrêts qui durent moins de 6 mois sur certaines entreprises relevant des accords de branches « aide à domicile » et « propreté ». Pour ce faire, on teste et compare les performances de différents algorithmes : CART, GLM, Random Forest et XGBoost. Finalement, les deux modèles sont agrégés pour avoir un coût total (fréquence x coût). Celui-ci permettra par la suite de tarifier les arrêts pour l’entreprise assurée.
Abstract
Group provident insures are now facing major challenges: the market is increasingly competitive and the slippage of the cost of sick leave - already observed during the recent years - has been accelerated by the COVID pandemic. Insurers and provident institutions (PI) must therefore innovate and seize all available opportunities to meet these challenges and better understand and control the risk of sick leave (AT). The DSN (Nominative Social Declaration) presents a strong opportunity for PIs with a non-affiliation provident portfolio (the case of the host organization). Mandatory since 2017 for all companies in the private sector with employees, the DSN is based on payroll data and allows provident insurance organizations to have a detailed and up-to-date information about the sick leave cost. These data eliminate censorship in observations: a real revolution for an actuary accustomed to information asymmetry! Without the DSN, the PI only observes the affected population and only claims exceeding the policy deductible. With the DSN, the PI can observe the entire insured population and all the claims. This comprehensive information makes it possible to carry on modelling and segmentation work to characterize population with high risk of sick leave and its probable duration. In addition to the availability of data, insurers have more and more tools for processing big data. The scientific community is well advanced on segmentation algorithms based on Machine Learning (ML) theory. These algorithms make it possible to explicit patterns in big data: a second opportunity to challenge traditional methods of calculating the cost of risk and its pricing. The purpose of this thesis is to use the DSN to challenge the existing pricing standards on work stoppage risk by modelling it with ML methods. It focuses on short-term work stoppages: those that are not observed by the insurer without the DSN. First, descriptive statistics and correlations between the variables of the DSN and the stoppage risk are presented. Then, the objective will be to model frequency and duration of sick leaves that last less than 6 months on certain companies falling under the "home help" and "cleaning" branch agreements. To do this, we test and compare the performance of different algorithms: CART, GLM, Random Forest and XGBoost. Finally, we aggregate outputs of both models to have a total cost model (frequency x duration). This will then make it possible to price the risk.
Mémoire complet
>
Memoire WEILL Laure.pdf
Lien permament :
https://www.ressources-actuarielles.net/C12574E200674F5B/0/4AE21F5E70D9FCA9C1258A4B001E39E6