Motor multifunções: pesquisa terminológica bilíngue e assistente de escrita académica com base em dados científicos abertos
Palavras-chave:
Motor de pesquisa, literacia académica, repositórios, dados científicos abertosResumo
Neste artigo, exploraremos o processo de construção de um motor multifunções que está a ser desenvolvido no âmbito do projeto de investigação PortLinguE (ref. PTDC/LLT-LIG/31113/2017) e que parte da reutilização de dados científicos disponíveis em regime de acesso aberto. Daremos conta da arquitetura geral do motor que assenta numa framework Django e do modelo lógico do motor que funcionará em modelos de BERT, pois permitem efetuar pesquisas que consideram o contexto e as semelhanças semânticas. O motor tem duas funções principais que apresentamos em detalhe: (1) a função de pesquisa bilíngue de terminologia, capaz de identificar equivalentes de tradução de textos comparáveis retirados de repositórios científicos (útil a tradutores e investigadores que trabalhem com línguas de especialidade) e (2) a função de assistente de escrita académica, que parte da constituição de um banco de frases para o português académico europeu, através da recolha, anotação e análise de artigos científicos retirados de repositórios nacionais (útil a estudantes que procurem melhorar a sua escrita em contextos académicos).
Referências
CRIBB, J.; SARI, T. Open Science: Sharing Knowledge in the Global Century. Collingwood: Victoria, 2010. DOI: 10.1071/9780643097643
Devlin, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs], 2019.
https://doi.org/10.48550/arXiv.1810.04805
Estrela, A.; Sousa, O. C. Competência textual à entrada no Ensino Superior. Revista de Estudos da Linguagem, v,19 (1), pp. 247-267, 2011.
Morley, J. (2004). Academic Phrasebank. https://www.phrasebank.manchester.ac.uk/about-academic-phrasebank/
Pogiatzis, A. NLP: Contextualized word embeddings from BERT. Towards Data Science, 2019. https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b
Preto-Bay, A. M. The Social-Cultural Dimension of Academic Literacy Development and the Explicit Teaching of Genres as Community Heuristics. The Reading Matrix, vol. 4, no.3, 2004.https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.621.8717&rep=rep1&type=pdf
Varun. Calculating Document Similarities using BERT, word2vec, and other models. Towards Data Science, 2020. https://towardsdatascience.com/calculating-document-similarities-using-bert-and-other-models-b2c1a29c9630
##submission.downloads##
Publicado
Como Citar
Edição
Secção
Licença
Direitos de Autor (c) 2024 Revista Científica da UEM: Série Letras e Ciências Sociais
Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0.