Motor multifunções: pesquisa terminológica bilíngue e assistente de escrita académica com base em dados científicos abertos

Micaela Aguiar; José  Monteiro; Sílvia  Araújo

Autores

Micaela Aguiar Universidade do Minho
José Monteiro Universidade do Minho
Sílvia Araújo Universidade do Minho

Palavras-chave:

Motor de pesquisa, literacia académica, repositórios, dados científicos abertos

Resumo

Neste artigo, exploraremos o processo de construção de um motor multifunções que está a ser desenvolvido no âmbito do projeto de investigação PortLinguE (ref. PTDC/LLT-LIG/31113/2017) e que parte da reutilização de dados científicos disponíveis em regime de acesso aberto. Daremos conta da arquitetura geral do motor que assenta numa framework Django e do modelo lógico do motor que funcionará em modelos de BERT, pois permitem efetuar pesquisas que consideram o contexto e as semelhanças semânticas. O motor tem duas funções principais que apresentamos em detalhe: (1) a função de pesquisa bilíngue de terminologia, capaz de identificar equivalentes de tradução de textos comparáveis retirados de repositórios científicos (útil a tradutores e investigadores que trabalhem com línguas de especialidade) e (2) a função de assistente de escrita académica, que parte da constituição de um banco de frases para o português académico europeu, através da recolha, anotação e análise de artigos científicos retirados de repositórios nacionais (útil a estudantes que procurem melhorar a sua escrita em contextos académicos).

Referências

CRIBB, J.; SARI, T. Open Science: Sharing Knowledge in the Global Century. Collingwood: Victoria, 2010. DOI: 10.1071/9780643097643

Devlin, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs], 2019.

https://doi.org/10.48550/arXiv.1810.04805

Estrela, A.; Sousa, O. C. Competência textual à entrada no Ensino Superior. Revista de Estudos da Linguagem, v,19 (1), pp. 247-267, 2011.

Morley, J. (2004). Academic Phrasebank. https://www.phrasebank.manchester.ac.uk/about-academic-phrasebank/

Pogiatzis, A. NLP: Contextualized word embeddings from BERT. Towards Data Science, 2019. https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b

Preto-Bay, A. M. The Social-Cultural Dimension of Academic Literacy Development and the Explicit Teaching of Genres as Community Heuristics. The Reading Matrix, vol. 4, no.3, 2004.https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.621.8717&rep=rep1&type=pdf

Varun. Calculating Document Similarities using BERT, word2vec, and other models. Towards Data Science, 2020. https://towardsdatascience.com/calculating-document-similarities-using-bert-and-other-models-b2c1a29c9630

Motor multifunções: pesquisa terminológica bilíngue e assistente de escrita académica com base em dados científicos abertos

Autores

Palavras-chave:

Resumo

Referências

##submission.downloads##

Publicado

Como Citar

Edição

Secção

Licença

Idioma

Informações

Enviar Submissão

Número Atual

Desenvolvido por