Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados

Paula Ianishi, Rafael Izbicki

Abstract


Galáxias podem possuir diferentes morfologias, uma importante fonte de informação
para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados  para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.


Keywords


Classificação; Conjunto de dados desbalanceados; Aprendizado de Máquina

References


Conselice, Christopher J.: The relationship between stellar light distributi-

ons of galaxies and their formation histories. In: The Astrophysical Journal

Supplement Series 147 (2003), Nr. 1, S. 1

Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.

SIAM, 1982

Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;

Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting

disturbed galaxy morphologies at high redshift. In: Monthly Notices of the

Royal Astronomical Society 434 (2013), S. 282–295

Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of

statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001

Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação

da aplicação de algoritmos de agrupamento para o problema astrofísico de

classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7

(2015), Nr. 2, S. 52–61

Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and

sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577

James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:

An introduction to statistical learning. Springer, 2013

Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-

man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-

nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The

Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36

Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-

ced datasets: A review. In: GESTS International Transactions on Computer

Science and Engineering 30 (2006), Nr. 1, S. 25–36

Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric

approach to galaxy morphological classification. In: The Astronomical Journal

(2004), Nr. 1, S. 163

R Core Team: R: A Language and Environment for Statistical Com-

puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.

https://www.R-project.org/

Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced

data: A review. In: International Journal of Pattern Recognition and Artificial

Intelligence 23 (2009), Nr. 04, S. 687–719

Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review

paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73




DOI: http://dx.doi.org/10.5540/tema.2017.018.01.0155

Article Metrics

Metrics Loading ...

Metrics powered by PLOS ALM

Refbacks

  • There are currently no refbacks.



TEMA - Trends in Applied and Computational Mathematics

A publication of the Brazilian Society of Applied and Computational Mathematics (SBMAC)
ISSN: 1677-1966  (print version),  2179-8451  (online version)

Indexed in:

                        

 

Desenvolvido por:

Logomarca da Lepidus Tecnologia