TÉCNICAS DE EXTRAÇÃO DE CONHECIMENTO POR MEIO DE DADOS FALTANTES E MINERAÇÃO DE DADOS SOBRE AS VÍTIMAS DO CÉSIO-137: Uso De Imputação Múltipla Para Obtenção De Modelos Acurados.

Danyllo Sudário Cardoso, Hugo Pereira Leite Filho, Rafael Souto

Resumo


Lidar com dados massivos sem perda ou distorção de resultados requer a aplicação de técnicas aprimoradas de mineração de dados (Witten, Frank, & Hall, 2011). O problema não tratado dos dados faltantes distorce a realidade gerando modelos tendenciosos (Haukoos & Newgard, 2007). Aqui é exposto um ensaio sobre o problema de dados faltantes em pesquisas clínicas mediante técnicas de mineração de dados, métodos estatísticos de regressão linear e múltipla imputação. Foram analisados relatórios de dosimetria citogenética, dos acidentados com o Césio-137 em Goiânia, divididos quanto ao índice de dermatites apresentadas em: Grupo I e Grupo II. O Grupo I, apresentou percentagem de dados faltantes de quase vinte e oito por cento, já o Grupo II, apresentou falta de dados de cerca de sessenta e dois por cento, havendo assim nos dois casos, a degradação da amostra. Para os dois grupos foram aplicados métodos de regressão linear pré- e pós-imputação. O estudo exposto neste trabalho, mostra que a preocupação de pesquisadores, quanto à coleta de dados (Haukoos & Newgard, 2007), é realmente relevante. A imputação múltipla revela-se uma excelente escolha para o tratamento de dados faltantes, culminando na realização de modelos mais acurados, dirimindo deste modo, problemas de degradação da amostra.


Palavras-chave


dosimetria citogenética, imputação múltipla, modelos mais acurados, mineração de dados, regressão linear.

Texto completo:

PDF

Referências


Allison, P. D. (February de 2000). Multiple Imputation for Missing Data: A Cautionary Tale. Sociological Methods & Research, 28(3), 201-209. doi:10.1177/0049124100028003003

Allison, P. D. (2001). Missing Data (7th ed., Vol. 136). (D. Santoyo, Ed.) Thousand Oaks, California, EUA: SAGE Publications, Inc.

Baneshi, M. R., & Talei, A. R. (21 de June de 2010). Impact of Imputation of Missing Data on Estimation of Survival Rates: An Example in Breast Cancer. Iranian Journal of Cancer Prevention, 3(3), pp. 127-131.

Brown, M. L., & Kros, J. F. (2003). Data Mining and the impact of missing data. Industrial Management & Data Systems, 103(8), 611-621. doi:10.1108/02635570310497657

Donders, A. R., Heijden, G. J., Stijnen, T., & Moons, K. G. (10 de January de 2006). Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology, 59(10), 1087-1091. doi:10.1016/j.jclinepi.2006.01.014

Freels, S., & Sinha, K. (1 de September de 2008). R-squared for general regression models in the presence of sampling weights. Statistics and Probability Letters, 78(12), 1671–1672. doi:10.1016/j.spl.2008.01.010

Fuini, S. C., Souto, R., Amaral, G. F., & Amaral, R. G. (julho de 2013). Qualidade de vida dos indivíduos expostos ao césio-137, em Goiânia, Goiás, Brasil. Cad. Saúde Pública, 1301-1310.

Galvão, S. D. (2007). A Seleção de Atributos e o Aprendizado Supervisionado de Redes Bayesianas no Contexto da Mineração de Dados. Dissertação, Universidade Federal de São Carlos, São Carlos.

Goeij, M. C., Diepen, M. v., Jager, K. J., Tripepi, G., Zoccali, C., & Dekker, F. W. (31 de May de 2013). Multiple imputation: dealing with missing data. Nephrol Dial Transplant(28), 2415–2420. doi:10.1093/ndt/gft221

Haukoos, J. S., & Newgard, C. D. (July de 2007). Advanced Statistics: Missing Data in Clinical Research - Part 1: An Introduction and Conceptual Framework. (R. J. Lewis, Ed.) Academic Emergency Medicine, 14(7), 662-668. doi:10.1197/j.aem.2006.11.037

Heus, P. d. (March de 2012). R squared effect-size measures and overlap between direct and indirect effect in mediation analysis. Behavior Research Methods, 44(1), 213-221. doi:10.3758/s13428-011-0141-5

King, G. (1996). Stochastic variation: A comment on Lewis-Beck and Skalaban's "The R-Square". Political Analysis, 6(1), 1-36. doi:10.1093/pan/6.1.1

Newgard, C. D., & Haukoos, J. S. (July de 2007). Advanced Statistics: Missing Data in Clinical Research—Part 2: Multiple Imputation. Academic Emergency Medicine, 14(7), 669–678. doi:10.1197/j.aem.2006.11.038

Nunes, L. N., Klück, M. M., & Fachel, J. M. (fevereiro de 2009). Uso da imputação múltipla de dados faltantes: uma simulação utilizando dados epidemiológicos. Cad. Saúde Pública, 25(2), 270-278. doi:10.1590/S0102-311X2009000200005

Nunes, L. N., Klück, M. M., & Fachel, J. M. (dezembro de 2010). Comparação de métodos de imputação única e múltipla usando como exemplo um modelo de risco para mortalidade cirúrgica. Rev. Bras. Epidemiol., 13(4), 595-606. doi:10.1590/S1415-790X2010000400005

Osborne, J. W. (2013). DEALING WITH MISSING DATA OR INCOMPLETE DATA: Debunking The Mith of Emptiness. Em J. W. Osborne, Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data (p. 296). Los Angeles, California, USA: SAGE Publications, Inc.

Preacher, K. J., & Kelley, K. (2011). Effect Size Measures for Mediation Models: Quantitative Strategies for Communicating Indirect Effects. Psychological Methods, 16(2), 93–115. doi:10.1037/a0022658

SAS Institute Inc. (2012). Step-by-Step Programming with Base SAS® (2nd ed.). Cary, North Carolina, United States of America: SAS Institute Inc.

SAS Institute Inc. (2013). Introduction to Regression Procedures. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 67-104). Cary: SAS Institute Inc.

SAS Institute Inc. (2013). SAS/STAT® 13.1 User’s Guide. (A. Baxter, & E. Huddleston, Eds.) Cary, NC, USA: SAS Institute Inc.

SAS Institute Inc. (2013). The MCMC Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 4729-4994). Cary: SAS Institute Inc.

SAS Institute Inc. (2013). The MI Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 5033-5170). Cary: SAS Institute Inc.

SAS Institute Inc. (2013). The MIANALYZE Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 5171-5232). Cary: SAS Institute Inc.

SAS Institute Inc. (2013). The REG Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 7019-7206). Cary: SAS Institute Inc.

Schafer, J. L. (February de 1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8(1), 3-15. doi:10.1177/096228029900800102

Spratt, M., Carpenter, J., Sterne, J. A., Carlin, J. B., Heron, J., Henderson, J., & Tilling, K. (8 de July de 2010). Strategies for Multiple Imputation in Longitudinal Studies. American Journal of Epidemiology, 172(4), 478–487. doi:10.1093/aje/kwq137

Taugourdeau, S., Villerd, J., Plantureux, S., Huguenin-Elie, O., & Amiaud, B. (26 de January de 2014). Filling the gap in functional trait databases: use of ecological hypotheses to replace missing data. Ecology and

Evolution, 4(7), pp. 944-958. doi:10.1002/ece3.989

van Buuren, S. (June de 2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research, 16(3), 219-242. doi:10.1177/0962280206074463

Witten, I. H., Frank, E., & Hall, M. A. (2011). DATA MINING: Practical Machine Learning Tools and Techniques (3rd ed.). Burlington, MA, USA: Elsevier.




DOI: http://dx.doi.org/10.33837/msj.v1i7.195

Apontamentos





Direitos autorais 2017 Danyllo Sudário Cardoso, Hugo Pereira Leite Filho, Rafael Souto

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição 4.0 Internacional.

Revista Indexada nas seguintes bases:

 

          

Uma publicação da Diretoria de Pesquisa e Pós-Graduação do IFGoiano - Câmpus Urutaí

 

  

 Licença Creative Commons

Este trabalho está licenciado com uma Licença Creative Commons - Atribuição 4.0 Internacional.