Metodologia de coleta


 
O Banco Informatizado de Textos

O banco de dados do LeDoc é constituído de um conjunto de textos representativos da Sertão do Pajeú, da Zona da Mata Norte e da Zona Mata Sul de Pernambuco dos séculos XVIII, XIX e XX tais como: manuscritos das esferas pública e privada, impressos jornalísticos e entrevistas orais. Para os textos de sincronias passadas, o acervo do laboratório inclui o registro fotográfico, a versão fac-símile e a versão digital dos documentos editados seguindo as notações semidiplomáticas. Para os textos orais, o acervo constitui o registro fonográfico e a transcrição em versão digital transcrito segundo as normas do projeto Norma Urbana Culta. Todos os textos pertencentes ao banco de dados do projeto foram coletados em arquivos públicos, fundações de pesquisa e arquivos particulares. A escolha das três categorias de textos justificou-se por três fatores: 1) a disponibilidade em arquivos particulares e públicos; 2) a representação de uma região social e economicamente importante para o Estado e 3) o caráter representativo do patrimônio linguístico-cultural de uma determinada época e de determinada região pernambucana

Corpora de textos escritos

A implantação do LEDOC tem por base as orientações teórico-metodológicas da Linguística de Corpus, da Sociolinguística Histórica e Variacionista. Isso quer dizer que a composição do seu acervo, por representar uma seleção diversificada de textos, preza pela veracidade e fidelidade das informações socio-históricas dos corpora. Nessa perspectiva, o a coleta, a edição e o tratamento dos textos recolhidos estarão condicionadas à análise também de fatores pragmáticos da língua. Por isso, na organização dos corpora são também examinadas as condições de produção, o contexto em que os textos foram produzidas, a sua finalidade comunicativa, o tema abordado e a organização estrutural. O exemplo a seguir ilustra a fórmula de entrada dos textos na plataforma dos corpora do LEDOC:





Corpora de textos orais

Os textos orais que compõem o banco de dados do LeDoc são exemplares de língua falada coletada do vernáculo. Os dados são resultados da fala espontânea de 15 falantes naturais de Tejucupapo e de outras regiões que se revelam importância sócio-histórica para a compreensão da ocupação do território pernambucano. As gravações tem aproximadamente uma hora de duração, e todo o material gravado é transcrito de acordo com as normas do Projeto Norma Urbana Culta (NURC), conforme mostra o quadro seguinte:


 

 
 
Apoio