Assessment of a method for automatic match classification in probabilistic data linkage

2019 
: O objetivo foi testar e avaliar a acuracia de um metodo para a selecao de escore em relacionamento probabilistico de banco de dados, de forma a viabilizar a automatizacao da identificacao de pares verdadeiros dispensando a etapa de inspecao manual. Estudo de acuracia utilizando dados do Sistema de Informacao do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Apos o processo de limpeza e padronizacao, foi realizado o relacionamento probabilistico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrao-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acuracia do metodo de selecao dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acuracia (> 0,97), medida F (> 0,96) e area sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porem com escores mais baixos. Dos 16 passos avaliados, o uso de apenas tres de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O metodo proposto permite automatizar o relacionamento das bases de dados, mantendo a acuracia do metodo. Facilita a utilizacao de relacionamento probabilistico no âmbito dos servicos de saude, especialmente para a vigilância e gestao em saude.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []