An analysis of hierarchical text classification using word embeddings

Autor	Stein, Roger Alan;
Lattes do autor	http://lattes.cnpq.br/6303163503199490;
Orientador	Maillard, Patrícia Augustin Jaques;
Lattes do orientador	http://lattes.cnpq.br/5723385125570881;
Co-orientador	Valiati, João Francisco;
Lattes do co-orientador	http://lattes.cnpq.br/4658545839496086;
Instituição	Universidade do Vale do Rio dos Sinos;
Sigla da instituição	Unisinos;
País da instituição	Brasil;
Instituto/Departamento	Escola Politécnica;
Idioma	pt_BR;
Título	An analysis of hierarchical text classification using word embeddings;
Resumo	Efficient distributed numerical word representation models (word embeddings) combined with modern machine learning algorithms have recently yielded considerable improvement on automatic document classification tasks. However, the effectiveness of such techniques has not been assessed for the hierarchical text classification (HTC) yet. This study investigates application of those models and algorithms on this specific problem by means of experimentation and analysis. Classification models were trained with prominent machine learning algorithm implementations—fastText, XGBoost, and Keras’ CNN—and noticeable word embeddings generation methods—GloVe, word2vec, and fastText—with publicly available data and evaluated them with measures specifically appropriate for the hierarchical context. FastText achieved an LCAF1 of 0.871 on a single-labeled version of the RCV1 dataset. The results analysis indicates that using word embeddings is a very promising approach for HTC.;
Abstract	Modelos eficientes de representação numérica textual (word embeddings) combinados com algoritmos modernos de aprendizado de máquina têm recentemente produzido uma melhoria considerável em tarefas de classificação automática de documentos. Contudo, a efetividade de tais técnicas ainda não foi avaliada com relação à classificação hierárquica de texto. Este estudo investiga a aplicação daqueles modelos e algoritmos neste problema em específico através de experimentação e análise. Modelos de classificação foram treinados usando implementações proeminentes de algoritmos de aprendizado de máquina—fastText, XGBoost e CNN (Keras)— e notórios métodos de geração de word embeddings—GloVe, word2vec e fastText—com dados disponíveis publicamente e avaliados usando métricas especificamente adequadas ao contexto hierárquico. Nesses experimentos, fastText alcançou um LCAF1 de 0,871 usando uma versão da base de dados RCV1 com apenas uma categoria por tupla. A análise dos resultados indica que a utilização de word embeddings é uma abordagem muito promissora para classificação hierárquica de texto.;
Palavras-chave	Hierarchical classification; Text classification; Word embeddings; Convolutional neural networks; FastText; Classificação hierárquica; Classificação textual; Redes neurais (computação); FastText;
Área(s) do conhecimento	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo	Dissertação;
Data de defesa	2018-03-28;
Agência de fomento	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
Direitos de acesso	openAccess;
URI	http://www.repositorio.jesuita.org.br/handle/UNISINOS/7624;
Programa	Programa de Pós-Graduação em Computação Aplicada;

Arquivos deste item

Nome: Roger Alan Stein_.pdf

Tamanho: 465.0Kb

Formato: PDF

Descrição: analysis_hierarchical

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

PPG Computação Aplicada [359]
PPG Computação Aplicada

Mostrar registro simples

Buscar

Navegar

Todo o repositório
- Comunidades e Coleções
Esta coleção

Minha conta

Estatística

Ver as estatísticas de uso

An analysis of hierarchical text classification using word embeddings

Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Buscar

Navegar

Todo o repositório

Esta coleção

Minha conta

Estatística