Resumo

Título do Artigo

PREDIÇÃO DE CLASSES DE COBERTURA E USO DO SOLO ATRAVÉS DE MINERAÇÃO DE DADOS DE ESPECTRORADIOMETRIA E COMPUTAÇÃO NA NUVEM
Abrir Arquivo

Palavras Chave

mineração de dados, espectroradiometria, computação na nuvem
data mining, spectroradiometry, cloud computing

Área

Inovação

Tema

Temas Emergentes em Inovação

Autores

Nome
1 - Claudio Roberto Oliveira da Silva
Colégio Politécnico da UFSM - UFSM

Reumo

Desde que a informática se tornou presente imensos volumes de dados têm sido sistematicamente coletados e armazenados. Os benefícios da armazenagem e recuperação destes dados já viabilizam a obtenção de informações com muita eficiência e agilidade. Contudo, apenas recuperar informação não propicia todas as vantagens possíveis diante das tecnologias disponíveis. Diante deste desafio o presente trabalho apresenta uma aplicação de mineração de dados para elaborar predição e comparação de desempenho entre os algoritmos sobre um conjunto de dados de reflectância mensurado de classes de uso e cobertura do solo em um ambiente Jupyter presente na plataforma Google Collab, com uso de bibliotecas de Machine Learn através da linguagem Python 3. O tratamento dos dados se deu pela seleção e exclusão de outliers, e redução do volume através da discretização nos intervalos do visível (0,43-0,68m) e do infravermelho próximo (0,85-0,88m), respectivamente. De acordo com as métricas de acurácia e índice kappa dos preditores, a árvore de decisão apresentou o melhor desempenho sobre os demais, com 100%-1,0, com pequena diferença em relação ao KNN, com 97,9%-0,97 e moderada diferença entre o Random Forest, com 87,5%-0,84, enquanto que o classificador Adaboost apresentou o pior desempenho, com 47,9%-0,33, respectivamente, refletindo através da matriz de confusão o número erros cometidos por cada algoritmo. A metodologia se mostrou uma eficiente ferramenta para auxiliar a escolha do algoritmo a ser adotado, fomentando as comunidade acadêmica com a oferta aplicações de análise de dados e predição aqui compartilhado para livre acesso no repositório de dados na internet através do Github (https://github.com/sclaudiobr/modelo_espectral). Contudo foi possível concluir que cada algoritmo tende a se adequar a alguns tipos de problemas melhor do que outros, e normalmente tem muitos parâmetros e configurações diferentes para ajustar antes de atingir o desempenho ideal em um conjunto de dados.
Since information technology has become present, immense volumes of data have been systematically collected and stored. The benefits of storing and retrieving this data already make it possible to obtain information with great efficiency and agility. However, just retrieving information does not provide all the possible advantages in view of the available technologies. Faced with this challenge, the present work presents a data mining application to elaborate prediction and performance comparison between the algorithms on a set of measured reflectance data of land use and cover classes in a Jupyter environment present on the Google Collab platform, with use of Machine Learn libraries using the Python 3 language. Data processing was done by selecting and excluding outliers, and reducing the volume through the discretization in the visible (0.43-0.68m) and near infrared ( 0.85-0.88m), respectively. According to the predictors' accuracy and kappa index metrics, the decision tree performed better than the others, with 100% -1.0, with a small difference in relation to the KNN, with 97.9% -0.97 and moderate difference between the Random Forest, with 87.5% -0.84, while the Adaboost classifier had the worst performance, with 47.9% -0.33, respectively, reflecting through the confusion matrix the number of mistakes made for each algorithm. The methodology proved to be an efficient tool to assist the choice of the algorithm to be adopted, encouraging the academic community by offering data analysis and prediction applications shared here for free access in the internet data repository through Github (https: // github.com/sclaudiobr/modelo_espectral). However, it was possible to conclude that each algorithm tends to suit some types of problems better than others, and usually has many different parameters and settings to adjust before reaching the optimal performance on a data set.