Methodological approaches for imputing missing data into monthly flows series

Revista Ambiente E Água

Endereço:
Estrada Mun. Dr. José Luiz Cembranelli, 5.000 - Bairro Itaim
Taubaté / SP
0
Site: http://www.agro.unitau.br/seer/index.php/ambi-agua/index
Telefone: (12) 3625-4212
ISSN: 1980993X
Editor Chefe: Nelson Wellausen Dias
Início Publicação: 31/07/2006
Periodicidade: Quadrimestral
Área de Estudo: Ciências Agrárias, Área de Estudo: Ciências Biológicas, Área de Estudo: Ciências Exatas, Área de Estudo: Engenharias, Área de Estudo: Multidisciplinar

Methodological approaches for imputing missing data into monthly flows series

Ano: 2022 | Volume: 17 | Número: 2
Autores: Michel Trarbach Bleidorn, Wanderson de Paula Pinto, Isamara Maria Schmidt, Antonio Sergio Ferreira Mendonça, José Antonio Tosta dos Reis
Autor Correspondente: Isamara Maria Schmidt | isamaraschmidt@gmail.com

Palavras-chave: Doce river, imputation, missing data

Resumos Cadastrados

Resumo Português:

A falta de dados é uma das principais dificuldades no trabalho com registros fluviométricos. As lacunas no banco de dados podem resultar de problemas nos componentes das estações fluviométricas, interrupções no monitoramento e falha dos observadores. A análise de séries incompletas gera resultados incertos, impactando negativamente a gestão dos recursos hídricos. Assim, a consideração adequada dos dados faltantes é muito importante para garantir a qualidade de informação. Este trabalho teve como objetivo analisar, comparativamente, metodologias de imputação de dados faltantes em séries temporais de vazões fluviais mensais, considerando, em um estudo de caso, o Rio Doce, localizado no Sudeste do Brasil. Os dados faltantes foram simulados nas proporções de 5%, 10%, 15%, 25% e 40% seguindo um padrão de distribuição aleatória e ignorando os mecanismos de geração de falhas. Foram utilizadas dez metodologias de imputação de dados faltantes: média aritmética, mediana, regressão linear simples e múltipla, ponderação regional, interpolação spline e Stineman, suavização de Kalman, imputação múltipla e máxima verossimilhança. Seus desempenhos foram comparados por meio dos indicadores viés, raiz do erro quadrático médio, erro absoluto médio percentual, coeficiente de determinação e índice de concordância. Os resultados indicam que para 5% de dados faltantes, qualquer metodologia de imputação pode ser considerada, recomendando cautela na aplicação da média aritmética. No entanto, à medida que a proporção de dados faltantes aumenta, recomenda-se o uso das metodologias imputação múltipla e máxima verossimilhança quando houver estações de suporte para imputação, e os métodos de interpolação Stineman e suavização de Kalman quando apenas as séries estudadas estiverem disponíveis.

Palavras-chave: dados faltantes; imputação; Rio Doce



Resumo Inglês:

Missing data is one of the main difficulties in working with fluviometric records. Database gaps may result from fluviometric stations components problems, monitoring interruptions and lack of observers. Incomplete series analysis generates uncertain results, negatively impacting water resources management. Thus, proper missing data consideration is very important to ensure better information quality. This work aims to analyze, comparatively, missing data imputation methodologies in monthly river-flow time series, considering, as a case study, the Doce River, located in Southeast Brazil. Missing data were simulated in 5%, 10%, 15%, 25% and 40% proportions following a random distribution pattern, ignoring the missing data generation mechanisms. Ten missing data imputation methodologies were used: arithmetic mean, median, simple and multiple linear regression, regional weighting, spline and Stineman interpolation, Kalman smoothing, multiple imputation and maximum likelihood. Their performances were compared through bias, root mean square error, absolute mean percentage error, determination coefficient and concordance index. Results indicate that for 5% missing data, any methodology for imputing can be considered, recommending caution for arithmetic mean method application. However, as the missing data proportion increases, it is recommended to use multiple imputation and maximum likelihood methodologies when there are support stations for imputation, and the Stineman interpolation and Kalman Smoothing methods when only the studied series is available.

Keywords: Doce river, imputation, missing data



Resumo Espanhol:

Missing data is one of the main difficulties in working with fluviometric records. Database gaps may result from fluviometric stations components problems, monitoring interruptions and lack of observers. Incomplete series analysis generates uncertain results, negatively impacting water resources management. Thus, proper missing data consideration is very important to ensure better information quality. This work aims to analyze, comparatively, missing data imputation methodologies in monthly river-flow time series, considering, as a case study, the Doce River, located in Southeast Brazil. Missing data were simulated in 5%, 10%, 15%, 25% and 40% proportions following a random distribution pattern, ignoring the missing data generation mechanisms. Ten missing data imputation methodologies were used: arithmetic mean, median, simple and multiple linear regression, regional weighting, spline and Stineman interpolation, Kalman smoothing, multiple imputation and maximum likelihood. Their performances were compared through bias, root mean square error, absolute mean percentage error, determination coefficient and concordance index. Results indicate that for 5% missing data, any methodology for imputing can be considered, recommending caution for arithmetic mean method application. However, as the missing data proportion increases, it is recommended to use multiple imputation and maximum likelihood methodologies when there are support stations for imputation, and the Stineman interpolation and Kalman Smoothing methods when only the studied series is available.

Keywords: Doce river, imputation, missing data