Aprendizagem estatística aplicada à previsão de default de crédito

2016 
OBJETIVO Esta pesquisa tem por objetivo comparar a capacidade preditiva das principais tecnicas de aprendizagem estatistica atualmente utilizadas nacional e internacionalmente para tratamento do problema de risco de credito, analisando-as a luz de sua eficiencia preditiva. METODOLOGIA No presente estudo foram utilizados os dados da base German Credit Dataset. As estimacoes foram obtidas a partir do pacote e1071 aplicado ao software estatistico R®. Foram testadas, comparativamente, as tecnicas: Analise Discriminante, Regressao Logistica, Redes Bayesianas Naive Bayes, kdB-1, kdB-2, SVC e SVM. Como ponto de corte para Analise Discriminante, Regressao Logistica, Redes Bayesianas Naive Bayes, kdB-1, kdB-2 foi empregada a curva ROC - Receiver Operating Characteristic. Os resultados foram comparados com base na acuracia (medida pelo metodo ACC) e pelo criterio de custo pelo erro (medido com base nos criterios trazidos pela base de dados) e os resultados foram apresentados sob o formato de uma matriz de confusao e validados pelo metodo k-Fold Cross-Validation. RESULTADOS E CONCLUSOES Analisando os resultados das tecnicas o SVM apresentou o maior numero medio de acertos, obtendo indice de acuracia 86.6%, bem como as maiores medias de acerto em termos de previsao dentre todos os modelos, com aproximadamente 85,5% de acertos na previsao de default. Pela analise do custo total e possivel verificar que o custo do erro do SVM foi de 50.46, sendo que 41.44% desse custo foi produzido por erros de falso positivo e 58.56% do custo foi produzido por erro de falso negativo. Este foi o menor custo dentre os custos produzidos pelas tecnicas estudadas, sendo aproximadamente 42% menor que o segundo colocado na analise. Para ambas as metricas (ACC e custos do erro) observou-se a superioridade do metodo SVM – Support Vector Machine, sugerindo que este metodo apresenta caracteristicas que potencializam o seu poder preditivo para o caso estudado. Tais resultados corroboram com indicacoes de autores que mostram que a superioridade do SVM se deve ao fato de que metodos ensemble, como e o caso do SVM, em dados desbalanceados. IMPLICACOES PRATICAS Com base nos resultados e possivel verificar que a evolucao das tecnicas de aprendizagem estatistica tem contribuido para a maximizacao dos resultados de classificacao, sendo este o problema central da analise de credito. Pela quantidade de estudos realizados internacionalmente e destacados na bibliografia, este se mostra um campo fertil para o desenvolvimento de pesquisas futuras, especialmente para comparacao dos resultados alcancados por este estudo. Especificamente sobre o SVM, os resultados corroboram com estudos que indicam boa aderencia de tal modelo para situacoes reais nas quais o banco de dados a ser classificado e desbalanceado. PALAVRAS-CHAVE Risco de credito, Aprendizagem estatistica, previsao de default.   STATISTICAL LEARNING APPLIED TO CREDIT DEFAULT PREDICTION OBJECTIVE This research compares the predictive potential of the main statistical learning techniques currently used in both nationally and internationally extent for the treatment of credit risk problem, by analyzing their predictive efficiency. METHODOLOGY In this study we have used the data base nominated German Credit Dataset. The estimates were obtained from e1071 package applied in R®. The comparatively seven techniques were tested: linear discriminant analysis, logistic regression, Naive Bayes, KDB-1, KDB-2, SVC and SVM. To discriminant analysis, logistic regression, Naive Bayes, KDB-1, KDB-2 employed the ROC curve - Receiver Operating Characteristic as a cut-off point. The results were compared based on accuracy (measured by the ACC technique) and on error cost criterion (measured by criteria observed in the database studied) and the results were presented in the confusion matrix format and validated by the k-fold Cross Validation technique. RESULTS AND CONCLUSIONS The results showed the highest average number of SVM technique hits, getting the highest accuracy (86.6%), as well as the biggest hits in terms of average forecast among all the other models with approximately 85.5% of correct default prediction. By the total cost results, we can verify that the SVM error cost was 50.46, with 41.44 percent of this cost produced by false positive errors and 58.56% by false negative error. It was the lowest cost among the costs produced by the studied techniques, approximately 42% lower than the second one. For both metrics (ACC and error costs) this study observed superiority of SVM method suggesting this method has characteristics that enhance the predictive power for the case studied. These results corroborate with results of authors that shows the SVM’s superiority is due to the ensemble methods such as SVM, by their nature, are more effective for unbalanced data. PRACTICAL IMPLICATIONS Based on the results is possible to check that the evolution of the statistical learning techniques have contributed to the maximization of classification results, being this the central problem of credit analysis. The amount of studies conducted internationally and showed in the bibliographical study, this is a fertile field to the future research development, especially to compare the results obtained by this study. About the SVM method, the results corroborate studies that indicate good adhesion of such model to real situations in which the dataset’s unbalanced. KEYWORDS Credit Risk, Statistical Learning, Default Prediction.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    2
    Citations
    NaN
    KQI
    []