O Centro Ramón Piñeiro presenta a nova versión do Corpus Documental do Galego Actual
![](http://www.galiciadigital.com/images/noticias/educacion-idiomas.jpg)
Valentín García recordou que o Ramón Piñeiro, centro de investigación dependente da Consellería de Cultura e Turismo, “ten entre as súas finalidades fundacionais o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das tecnoloxías da información e da comunicación” e que “o do CORGA é un dos proxectos de investigación que se centran en darlle cumprimento a este obxectivo”.
Na presentación da versión 3.2. do CORGA, o representante da Xunta estivo acompañado por Manuel González, coordinador científico do CRPIH; Marisol López, directora da Área de Lingüística do CRPIH e do proxecto CORGA; Guillermo Rojo, investigador colaborador do Ramón Piñeiro; Eva Domínguez e Mario Barcala, responsables, respectivamente, da coordinación lingüística e informática do proxecto.
Nova versión 3.2.
O CORGA é un corpus documental desenvolvido no CRPIH, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.
O corpus da versión ampliada -accesible no enderezo http://corpus.cirp.gal/corga-, foi enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos e contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.
As principais novidades que mostra fronte á versión anterior son a visualización da información recuperada en forma de expresións coincidentes, de xeito que os resultados iguais se reducen a un, e a presentación, a modo de dicionario de frecuencias, de listaxes personalizadas relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema. Estas funcionalidades veñen completar as que xa se deron a coñecer na versión 3.1. do CORGA, agora ampliada.
Facilidade de consulta
A flexibilidade e potencialidade da aplicación de consulta permite empregar nunha mesma procura comodíns, operadores booleanos, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, e mesmo reducir os resultados a expresións coincidentes ou obter frecuencias personalizadas de formas, lemas, etiquetas etc., o que converte o CORGA nunha ferramenta moi útil para extraer datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico, ou discursivo.
Para etiquetar e lematizar automaticamente os documentos do CORGA, a fin de dar un salto cualitativo na recuperación de información e formular consultas utilizando información gramatical, empregouse o XIADA, un etiquetador estatístico de alta precisión cuxa versión 2.7., tamén mellorada, está á disposición pública.
R.