Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
DOI:
https://doi.org/10.5540/tema.2017.018.01.0155Palavras-chave:
Classificação, Conjunto de dados desbalanceados, Aprendizado de MáquinaResumo
Galáxias podem possuir diferentes morfologias, uma importante fonte de informaçãopara o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.
Referências
Conselice, Christopher J.: The relationship between stellar light distributi-
ons of galaxies and their formation histories. In: The Astrophysical Journal
Supplement Series 147 (2003), Nr. 1, S. 1
Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.
SIAM, 1982
Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;
Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting
disturbed galaxy morphologies at high redshift. In: Monthly Notices of the
Royal Astronomical Society 434 (2013), S. 282–295
Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of
statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001
Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação
da aplicação de algoritmos de agrupamento para o problema astrofísico de
classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7
(2015), Nr. 2, S. 52–61
Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and
sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577
James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:
An introduction to statistical learning. Springer, 2013
Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-
man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-
nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The
Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36
Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-
ced datasets: A review. In: GESTS International Transactions on Computer
Science and Engineering 30 (2006), Nr. 1, S. 25–36
Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric
approach to galaxy morphological classification. In: The Astronomical Journal
(2004), Nr. 1, S. 163
R Core Team: R: A Language and Environment for Statistical Com-
puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.
Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced
data: A review. In: International Journal of Pattern Recognition and Artificial
Intelligence 23 (2009), Nr. 04, S. 687–719
Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review
paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Direitos Autorais
Autores de artigos publicados no periódico Trends in Computational and Applied Mathematics mantêm os direitos autorais de seus trabalhos. O periódico utiliza a Atribuição Creative Commons (CC-BY) nos artigos publicados. Os autores concedem ao periódico o direito de primeira publicação.
Propriedade Intelectual e Termos de uso
O conteúdo dos artigos é de responsabilidade exclusiva dos autores. O periódico utiliza a Atribuição Creative Commons (CC-BY) nos artigos publicados. Esta licença permite que os artigos publicados sejam reutilizados sem permissão para qualquer finalidade, desde que o trabalho original seja corretamente citado.
O periódico encoraja os Autores a autoarquivar seus manuscritos aceitos, publicando-os em blogs pessoais, repositórios institucionais e mídias sociais acadêmicas, bem como postando-os em suas mídias sociais pessoais, desde que seja incluída a citação completa à versão do website da revista.