RDBU| Repositório Digital da Biblioteca da Unisinos

Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados

Mostrar registro simples

Autor Silva, Augusto Lopes da;
Lattes do autor http://lattes.cnpq.br/4295273503383886;
Orientador Rigo, Sandro José;
Lattes do orientador http://lattes.cnpq.br/3914159735707328;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola Politécnica;
Idioma pt_BR;
Título Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados;
Resumo A atual consolidação e disponibilização de bases de dados abertos e conectados vem fomentando diversas iniciativas, sendo que, dentre elas, observa-se o uso do conteúdo armazenado para geração de linguagem natural. A geração de frases em linguagem natural pode ser beneficiada com o uso destas bases em pelo menos dois aspectos, que são a grande quantidade de informações disponível e a existência de anotações adicionais sobre o significado destas informações. Quanto aos recursos usados para a lexicalização das frases, os trabalhos nesta área podem ser agrupados em três categorias, sendo a primeira caracterizada pela utilização de templates para a definição da estrutura das frases, a segunda pelo uso de algoritmos de aprendizado de máquina para a geração das frases de modo não supervisionado e a terceira a utilização de ambas abordagens em um modelo híbrido. As abordagens geram resultados considerados interessantes, porém apresentam dificuldades em relação à naturalidade das sentenças geradas. Observa-se que os trabalhos relacionados ao tema não utilizam em ampla escala as informações das propriedades RDF presentes nas ontologias, fatores que podem ser considerados como apoio na geração de frases mais naturais. Dentre essas informações estão relacionamentos semânticos entre conceitos que podem ajudar a construção de sentenças em linguagem natural. Diante deste contexto, a pesquisa atual visa explorar essas propriedades para geração de linguagem natural para o idioma inglês a partir de um conjunto de templates elaborados por linguistas e do uso de recursos lexicais. Foram executados duas avaliações para ajustar critérios e variáveis para o algoritmo de geração de linguagem proposto e um terceiro para validação final da pesquisa. A primeira avaliação buscou identificar formas de geração de frases em linguagem natural a partir das propriedades RDF. Partindo da análise dos resultados da primeira avaliação, uma nova avaliação foi conduzida buscando medir a naturalidade das sentenças geradas a partir das propriedades RDF. Por fim, uma terceira avaliação foi projetada e executada, onde profissionais da linguística e nativos do idioma inglês avaliaram as frases curtas geradas pelo algoritmo. Os resultados da avaliação final foram considerados promissores para aplicações que objetivem geração de linguagem natural a partir das informações das propriedades RDF com apoio de recursos lexicais.;
Abstract The current consolidation and availability of linked open data have fomented several initiatives, among them it is possible to observe the use of the content stored in them for natural language generation. The generation of natural language phrases can benefit from using these bases in at least two aspects, which are the large amount of information available and the existence of additional notes on the meaning of this information. As for the resources used for the lexicalization of sentences, the works in this area can be grouped into three categories: the first one characterized by the use of sets of templates to define the sentence structure; the second by the use of machine learning algorithms to the generation of sentences in an unsupervised way; and the third the use of both approaches in a hybrid model. The approaches generate interesting results but have difficulties in relation to the naturalness of the sentences generated. It is observed that the works related to the topic do not use on a large scale the information of the RDF properties present in the ontologies, factors that can be considered as support in the generation of more natural phrases. Among these are semantic relationships between concepts that can help construct sentences in natural language. In this context, the current research aims to explore these properties for the generation of natural language for the English language from a set of templates developed by linguists and the use of lexical resources. Two evaluations were performed to evaluate criteria and variables for the proposed language generation algorithm and a third one for final validation of the research. The first evaluation sought to identify ways of generating natural language phrases from the RDF properties. Starting from the analysis of the results of the first evaluation, a new experiment was conducted to measure the naturalness of the sentences generated from the RDF properties. Finally, a third evaluation was designed and executed, where linguistic professionals and native English speakers evaluated the short sentences generated by the algorithm. The results of the final evaluation were considered promising for applications that aim to generate natural language from the information of RDF properties with the support of lexical resources.;
Palavras-chave Dados Abertos e Conectados; Geração de Linguagem Natural; RDF; Linked Open Data; Natural Language Generation; RDF;
Área(s) do conhecimento ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo Dissertação;
Data de defesa 2019-03-28;
Agência de fomento CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
Direitos de acesso openAccess;
URI http://www.repositorio.jesuita.org.br/handle/UNISINOS/8777;
Programa Programa de Pós-Graduação em Computação Aplicada;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística