Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
DOI:
https://doi.org/10.5540/tema.2017.018.01.0155Palavras-chave:
Classificação, Conjunto de dados desbalanceados, Aprendizado de MáquinaResumo
Galáxias podem possuir diferentes morfologias, uma importante fonte de informaçãopara o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.
Referências
Conselice, Christopher J.: The relationship between stellar light distributi-
ons of galaxies and their formation histories. In: The Astrophysical Journal
Supplement Series 147 (2003), Nr. 1, S. 1
Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.
SIAM, 1982
Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;
Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting
disturbed galaxy morphologies at high redshift. In: Monthly Notices of the
Royal Astronomical Society 434 (2013), S. 282–295
Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of
statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001
Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação
da aplicação de algoritmos de agrupamento para o problema astrofísico de
classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7
(2015), Nr. 2, S. 52–61
Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and
sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577
James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:
An introduction to statistical learning. Springer, 2013
Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-
man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-
nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The
Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36
Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-
ced datasets: A review. In: GESTS International Transactions on Computer
Science and Engineering 30 (2006), Nr. 1, S. 25–36
Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric
approach to galaxy morphological classification. In: The Astronomical Journal
(2004), Nr. 1, S. 163
R Core Team: R: A Language and Environment for Statistical Com-
puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.
Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced
data: A review. In: International Journal of Pattern Recognition and Artificial
Intelligence 23 (2009), Nr. 04, S. 687–719
Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review
paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Política para Periódicos de Acesso Livre
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).
- Esta é uma revista de acesso aberto, o que significa que todo o conteúdo é livremente disponível gratuitamente para o usuário ou sua instituição. Os usuários estão autorizados a ler, baixar, copiar, distribuir, imprimir, pesquisar ou vincular os textos completos dos artigos, ou usá-los para qualquer outro propósito legal, sem pedir permissão prévia do editor ou do autor. Isso está de acordo com a definição de acesso aberto do BOAI.
Todo o conteúdo do periódico está licenciado sob uma Licença Creative Commons do tipo atribuição BY.