Reporting santé : comment le perfectionner à l'aide de la datascience ?
Page précédente
Faire suivre
ce document
Domaine
(s)
Mémoire
formation(s)
ISFA () / resp.: / intervenant:
Informations sur les documents
Informations sur les documents
Type de document
Mémoires
société
Galéa & Associés
Auteur(s)
LE HO T.
Numéro
Date de référence
07/03/2018
Résumé
Data Science, actuariat et santé. Voici les trois notions choisies si ce mémoire devait être résumé en quelques mots. Les capacités technologiques augmentant à une vitesse vertigineuse, les outils informatiques possèdent aujourd’hui des capacités de stockage (de l’ordre de quelques tera-octects) inimaginables il y a encore dix ans. Les bases de données se multiplient et s’agrandissent : on parle alors de Big Data. Devant cette masse nouvelle et importante de données, les modèles actuarielles classiques deviennent alors perfectibles : la discipline de la Data Science est née. Celle-ci peut être définie comme un mélange entre les mathématiques, les statistiques et l’informatique et emploie des méthodes d’un nouveau genre. A l’origine évoquée dans des domaines tels que l’astronomie ou la génétique, ces notions peuvent désormais s’élargir à presque toutes sortes d’applications (politique, sport, : : : ). Dans le domaine de l’assurance et de l’actuariat, ces différentes notions ont fait leur apparition plus récemment au début des années 2010. Néanmoins, malgré leur relatif jeune âge, leurs possibilités d’utilisation sont potentiellement nombreuses. Tarification, suivi des risques, détection de phénomènes averses (fraude, résiliation, . . . ), . . . Les actions éventuelles des Data science dans le domaine de l’assurance sont nombreuses. Dans ce mémoire, nous nous intéressons à l’analyse de la consommation santé d’une population couverte par un régime complémentaire collectif. Pour ce faire, nous mettons tout d’abord en place une tarification reposant sur des méthodes actuarielles classiques afin d’analyser les risques sous-jacents. Or, une partie importante des risques en assurance santé est la problématique des gros consommants. En effet, une idée communément admise dans le milieu de l’assurance santé est que 20 % d’un portefeuille contribue à près de 80 % des dépenses engagées. Il peut donc être tout à fait intéressant, dans un second temps, d’exhiber des caractéristiques propres à ces gros consommants, à l’aide de méthodes Data Science. Ce modèle étant le plus utilisé dans la tarification, un modèle linéaire généralisé (ou GLM) a été tout d’abord implémenté. Celui-ci est alors comparé aux autres modèles de type Data Science afin de cerner les apports et les limites de chacun. Les différents modèles testés sont les arbres de décision de type CART, et deux méthodes d’agrégation d’arbres de décisions : les Random Forest et l’eXtreme Gradient Boosting (ou XGBoost). L’étude précise de ces différents modèles sur un poste de santé relatif aux consultations chez les médecins généralistes et spécialistes permet de choisir le modèle le plus approprié et de le généraliser aux autres postes et à l’étude des gros consommants. Au-delà des buts évoqués précédemment, ce mémoire vise avant tout à améliorer le reporting santé. De plus, l’utilisation de techniques issues des Data Science doit permettre d’affiner l’analyse de la consommation médicale et d’identifier de potentielles dérives sur des groupes d’assurés présentant certaines caractéristiques. Pour ce faire, de nombreuses variables, dont certaines d’origine externe, sont ajoutées à la base de données initiale afin d’exploiter au mieux le potentiel des modèles Data Science. Enfin, un reporting santé un peu particulier, mêlant statistiques descriptives et résultats de modèles Data Science, est présenté. L’analyse des risques effectuée permet de mettre en évidence certaines variables externes comme contributives dans l’explication de la consommation santé. De plus, l’étude des gros consommants met en avant de nouvelles variables qui n’étaient pas importantes dans l’analyse de la consommation santé.
Abstract
Data Science, actuary and health. If this master thesis should be sum up in a few words, these words would be choosen. Technological capabilities increasing fastly, software tools have storage capacities (in the order of some tera-octets) unthinkable a decade ago. Databases become more numerous and wider : we speak about Big Data. With this new and significant data mass, classical statistics models have become unsuitable : Data Science branch was born. It can be described as a combination of mathematics, statistics and computer sciences and uses advanced methods. Whereas astronomy or genetics were the first fields of Big Data, this notion has almost applied to all kinds of application (politics, sport, . . . ). In the context of insurance and actuarial science, theses notions had been developped recently, in the early 2010s. Nevertheless, despite their early age, possibilities for using could be plentiful. Pricing, risks monitoring, averse behaviours detect (fraud, termination, . . . ). Potential actions of Data Science in insurance are numerous. In this master thesis, we care about healthcare consumption analysis of a population covered by a compulsory collective contract. To that end, at first, we implement a pricing based on classical actuarial methods in order to analyze subjacent risks. Besides, an important part of risks in health insurance is large consumers issue. Indeed, a generally accepted idea in health insurance is the next one : 20 % of the portofolio amount to 80 % of expenditures. Then, it can be useful to extract specific features of large consumers, thanks to Data Science models. As it is the most widely used model in pricing, a GLM model had firstly been implemented. This model is compared to other Data Science models in order to understand beneficits and limits. The models tested are CART decision tree and two aggregated models : Random Forests and eXtreme Gradient Boosting (or XGBoost). The precise study of those models on medical consultations post enable the choice of the most accuracy model and its wider application to other health post and large consumers study. Beyond goals raised precedently, this master thesis targets health reporting improvement. Moreover, Data Science technics use should permit a best analysis of health consumption and the identification of potential drifts. In order to maximize Data Science models, some variables, including external variables, are added to the initial database. Finally, a particular health reporting, mixing descriptive statistics and results of Data Science models, is submitted. Risks analysis higlights some significant external variables in the explanation of health consumption. Moreover, large consumers study shows new variables which are not important in health consumption analysis.
Mémoire complet
>
Mémoire Thomas LE HO.pdf
Lien permament :
https://www.ressources-actuarielles.net/C12574E200674F5B/0/21F6C59C4A738B5FC12582600053B78F