RDBU| Repositório Digital da Biblioteca da Unisinos

The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing

Mostrar registro simples

Autor Martins, Mikaela Luzia;
Lattes do autor http://lattes.cnpq.br/9928528065150862;
Orientador Rigo, Sandro José;
Lattes do orientador http://lattes.cnpq.br/3914159735707328;
Co-orientador Fronza, Cátia de Azevedo;
Lattes do co-orientador http://lattes.cnpq.br/8861465576589134;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola da Indústria Criativa;
Idioma pt_BR;
Título The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing;
Resumo O objetivo deste trabalho é investigar o fenômeno da variação lexical em português e inglês nas etapas de alinhamento de termos e substituição lexical em Processamento de Linguagem Natural (PLN) levando em consideração o domínio especializado do varejo. Como aporte teórico, embasamo-nos em uma interface interdisciplinar que considera os postulados das áreas da Computação e da Linguística. Portanto, oferecemos um panorama teórico sobre a utilização de informação semântica no desenvolvimento de sistemas de PLN e demonstramos maneiras de implementação de informação semântica em bases lexicais computacionais como a WordNet, a FrameNet e a FrameNet Brasil. No que tange à Linguística, apoiamo-nos nas definições de Murphy (2003, 2010), L’Homme (2020) e Croft & Cruse (2004) a respeito das relações semânticas direcionadas à terminologia especializada. Também levamos em consideração as classificações e inferências de León-Araúz & Faber (2014) a respeito das variações lexicais e equivalentes de tradução no âmbito da Terminologia. Nossa metodologia apoia-se nas conjecturas da Linguística de Corpus e baseia-se na utilização da ferramenta Sketch Engine para analisar os corpora em inglês e português que buscam representar a terminologia do domínio. Os pares de termos escolhidos para o exercício de investigação da tarefa de substituição lexical são “plant” – “site” e “material” – “article”. A terminologia utilizada na análise monolíngue provém das predições geradas por três modelos de substituição lexical: um primeiro modelo considera a sinonímia entre termos, o segundo se volta a uma camada adicional de informação, os word embeddings, e o terceiro modelo atua com o auxílio de uma camada de informação adicional que recupera os frames semânticos. A terminologia utilizada na análise multilíngue provém do corpus utilizado e de uma coleta em bases terminológicas do varejo. A análise monolíngue busca classificar as predições dos modelos de acordo com as relações semânticas e resulta em uma categorização dos termos de acordo com as definições de variação terminológica de León-Araúz & Faber (2014). A análise bilíngue, por sua vez, classifica os equivalentes de tradução dos pares de termos de acordo com o problema de tradução que representam e com os tipos de equivalência elencados por León-Araúz & Faber (2014). Por fim, a partir de análises de cunho semântico-terminológico, nossos resultados apontam para a obtenção de melhorias de modelos de substituição lexical e modelos de tradução automática que levem em consideração a informação semântica e as categorias de classificação terminológicas com o intuito de avançar na qualidade e a precisão linguística dos resultados.;
Abstract The aim of this work is to investigate the phenomenon of lexical variation in Portuguese and English in terms alignment and lexical substitution steps in Natural Language Processing (NLP) taking into account the specialized domain of retail. As a theoretical contribution, we are based on an interdisciplinary interface that considers the postulates of the areas of Computing and Linguistics. Therefore, we offer a theoretical overview of the use of semantic information in the development of NLP systems and demonstrate ways of implementing semantic information in computational lexical bases such as WordNet, FrameNet and FrameNet Brasil. With regard to Linguistics, we rely on the definitions of Murphy (2003, 2010), L'Homme (2020) and Croft & Cruse (2004) regarding the semantic relations directed to specialized terminology. We also take into account León-Araúz & Faber's (2014) classifications and inferences regarding lexical variations and translation equivalents within the scope of Terminology. Our methodology is based on the conjectures of Corpus Linguistics and relies on the use of the Sketch Engine tool to analyze the corpora in English and Portuguese that seek to represent the terminology of the domain. The pairs of terms chosen for the research exercise of the lexical substitution task are “plant” – “site” and “material” – “article”. The terminology used in the monolingual analysis stage comes from the predictions generated by three lexical substitution models: the first one takes into account the synonymy between terms, the second one considers an additional layer of information, the word embeddings, and the third one works with the aid of an additional information layer that recovers the semantic frames. The terminology used in the multilingual analysis stage comes from the corpus used and from a collection of retail terminological bases. Our monolingual analysis seeks to classify the models' predictions according to the semantic relations and results in a categorization of terms according to the definitions of terminological variation by León-Araúz & Faber (2014). The bilingual analysis, in turn, classifies the translation equivalents of the pairs of terms according to the translation problem they represent and according to the types of equivalence that were listed by León-Araúz & Faber (2014). Finally, based on analyses of a semantic-terminological nature, our results point to improvements in lexical substitution models and automatic translation models that take into account the semantic information and the terminological classification categories in order to advance in the quality and linguistic accuracy of the results.;
Palavras-chave Terminologia; Semântica lexical; Processamento de Linguagem Natural; Substituição lexical; Semântica de frames; Terminology; Lexical semantics; Natural Language Processing; Lexical substitution; Frame semantics;
Área(s) do conhecimento ACCNPQ::Lingüística, Letras e Artes::Lingüística;
Tipo Dissertação;
Data de defesa 2023-03-01;
Agência de fomento CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
Direitos de acesso openAccess;
URI http://www.repositorio.jesuita.org.br/handle/UNISINOS/12540;
Programa Programa de Pós-Graduação em Linguística Aplicada;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística