Comparaison de modèles prédictifs pour l’évaluation des coûts matériels automobiles

Page précédente
Faire suivre ce document

Domaine(s)Mémoire
formation(s)Dauphine () / resp.: / intervenant:
Show details for Informations sur les documentsInformations sur les documents
Hide details for Informations sur les documentsInformations sur les documents

Type de document Mémoires
sociétéPRIM'ACT
Auteur(s) DE LIGNAUD DE LUSSAC M.
Numéro
Date de référence 01/26/2018


Résumé

Dans le contexte actuel de compétitivité de l’assurance automobile, les sociétés d’assurance recherchent activement les moyens permettant d’améliorer leurs ratios combinés. En effet, les produits d’assurance automobile constituent une part importante de l’activité non vie, et l’assuré verra un gage de qualité chez l’assureur qui propose des tarifs concurrentiels sur ce type de produit. Ainsi, être performant sur les produits d’assurance automobile est un enjeu important pour l’assureur, dont l’exigence se retrouve jusque chez les prestataires de services. Ce mémoire s’inscrit dans le cadre d’un travail dont l’objectif est d’évaluer la performance d’un réseau d’experts face à ses concurrents. Il s’articule également autour des problématiques d’explication du coût de sinistres matériels à l’aide de covariables. C’est pourquoi plusieurs modèles sont mis en concurrence afin de comparer leurs pouvoirs prédictifs respectifs. Pour répondre à la première problématique, un modèle de régression type GLM (Generalized Linear Model) est construit. A chaque variable est estimé un coefficient permettant d’évaluer l’influence de celle-ci sur le coût du sinistre. Ensuite, dans l’optique d’améliorer le pouvoir prédictif du GLM, celui-ci est inclus dans une méthode d’agrégation de modèle, le RGLM (Random Generalized Linear Model), en lui associant les caractéristiques des forêts aléatoires. Il a été possible, après plusieurs modifications de l’algorithme, d’améliorer substantiellement le pouvoir prédictif du GLM. Toutefois, cela a nécessité une complexification du modèle rendant l’interprétation plus délicate. Enfin, une méthode d’apprentissage non paramétrique est utilisée : le gradient boosting model (GBM). Parmi les trois, il possède la meilleure qualité de prédiction, mais au détriment de la traçabilité des calculs et de l’explication du résultat. Cette étude a mis en avant la performance des algorithmes de machine learning, que ce soit en les alliant à des techniques de régression plus classique (avec le GLM) ou en les utilisant tel quel (avec le GBM). Néanmoins, cette performance a un prix : l’interprétabilité des résultats, qui dans un contexte pratique peut être rédhibitoire.

Abstract

In today’s context of competitivity in automobile insurance, insurance companies are actively seeking means to lower their combined ratio. Indeed, automobile insurance’s product constitute a large part of the non-life insurance market, meaning that insured persons will see a guarantee of quality with the Insurer that offer a competitive price on those products. Hence, performing on those products is a crucial stake for Insurers, which explain their requirement toward their service providers. This memory thesis fits into a work environment which objective is to evaluate the gap of performance between two networks of experts. It is structured around the explanation of material disasters’ cost using suitable covariables. Therefore, we let several models compete to compare their predictive power. To answer the first problematic, a generalized linear model (GLM) is built. With a GLM, the influence of each variable on the disaster’s cost is estimated through a coefficient. Then, to improve the predictive power of the GLM, we add some characteristics of random forest to it, hence forming a random generalized linear model (RGLM), a model aggregation. After many changes of the algorithm, the predictive power of the GLM have been increased substantially. However, a complexification of the model was needed, making the interpretation of the results a little bit more delicate. Finally, a non-parametric model is used: the gradient boosting model (GBM). Among the others, this model has the best quality of prediction, but to the detriment of the computation’s traceability and the explanation of the result. This study exposes the performance of machine learning’s algorithms, whether coupled with more traditional regression techniques (GLM) or used by itself (GBM). Nonetheless, this performance has a price: the interpretability of results, which could be crippling in a practical context.

Mémoire complet

>Mémoire_M_de_Lussac_vdef.pdfMémoire_M_de_Lussac_vdef.pdf


Lien permament : https://www.ressources-actuarielles.net/C12574E200674F5B/0/F26E48164D9C5320C12582240057E275