Corpus Nacional Británico

De Wikipedia, la enciclopedia libre

El Corpus Nacional Británico, por sus siglas en inglés BNC (British National Corpus), es una colección de 100-millones de palabras y muestras habladas y escritas en inglés, que provienen de varias fuentes.[1][2][3]​ El corpus cubre inglés británico desde finales del siglo XX hasta una amplia variedad de géneros con la intención de que sea una muestra representativa del inglés Británico hablado y escrito de la época.

Historia[editar]

Para poder crea BNC se requirieron 3 editoriales, la prensa de la Universidad de Oxford como colaboración líder, junto con Longman y W. & R. Chambers), dos universidades, la Universidad de Oxford y la Universidad de Lancaster , y finalmente con la ayuda de la librería Británica.[2]

La creación de la BNC comenzó en 1991 bajo el consorcio de la misma, el proyecto terminó en 1994. No ha habido adiciones de nuevas muestras a partir de 1994 pero la BNC se sometió a revisiones leves antes del lanzamiento de la segunda edición mundial (2001), la tercera edición de la BNC fue la edición XML (2007).[4]

Antecedentes[editar]

Inicialmente la BNC era la visión de los lingüistas computacionales cuyo objetivo era un corpus (colección de textos) moderno, con un lenguaje natural que manejara palabras, textos o escrito que pudieran ser analizada por un ordenador. Dicho esto, se compila como un corpus general que se hace legible por los ordenadores para facilitar la búsqueda automática y el procesamiento en el campo de la lingüística. Una de las cualidades de la BNC que logró diferenciarla de los demás corpus existentes, fue agregar los datos del uso de la investigación académica, uso comercial y educativo.[3]

El corpus se limita al inglés británico y no se extendió para cubrir lenguas inglesas globales; esto se debe a que una gran porción del costo del proyecto fue financiado por el gobierno británico, con el fin de apoyar la documentación de su propia diversidad lingüística.[3]

Debido a su tamaño y a su falta de precedentes, la BNC requiere fondos de las instituciones comerciales y académicos también, a su vez, se convirtieron entonces en valores almacenados de la BNC, datos disponibles para la investigación comercial y académica.[3]

Descripción[editar]

La BNC es un corpus monolingüe, ya que únicamente registra muestras del lenguaje Británico, aunque en ocasiones, palabras y frases de otros idiomas también pueden estar presentes. Es un corpus sincrónico ya que sólo se representó el uso del lenguaje utilizado a finales del siglo XX. La BNC no se destina como un registro histórico sobre el desarrollo de inglés británico a través de los años.[4]​ Desde el principio los que participan en el registro de datos escritos trataron en hacer que la BNC fuera un corpus equilibrado y por lo tanto buscaron datos en varias fuentes.[3]

Componentes y contenido[editar]

Estructura de la BNC.

Corpus escrito[editar]

90% de la BNC son muestras del uso del lenguaje escrito. Estas muestras fueron extraídas de periódicos regionales y nacionales, revistas de investigación o periódicos de distintos ámbitos académicos, ficción, material inédito, folletos, catálogos, cartas, ensayos escritos por estudiantes de diferentes niveles académicos , discursos, guiones y muchos otros tipos de textos.[5]

Corpus hablado[editar]

El 10% restante de la BNC son muestras del uso del lenguaje hablado. Estos se presentan y se registran en forma de transcripciones ortográficas. El corpus hablado consta de dos partes: una parte es demográfica, que contiene las transcripciones de conversaciones espontáneas naturales producidos por voluntarios de diferentes grupos de edad, clases sociales y procedentes de diferentes regiones. Estas conversaciones fueron producidas en diferentes situaciones, incluyendo reuniones de negocios, gubernamentales, formales, conversaciones en programas de radio y llamadas telefónicas.[5]​ Estas muestras principalmente sirvieron para tener en cuenta tanto la distribución demográfica de la lengua oral como la variación lingüística a causa del contexto.[6]

La segunda parte consiste en muestras de contexto, las cuales se manejan como transcripciones de las grabaciones realizadas en determinados tipos de reuniones y eventos. Todas las muestras de grabación originales disponibles para su inclusión en la BNC se han depositado en los Archivos de Biblioteca Sonora Británica. La mayoría de las grabaciones están disponibles de manera gratuita en el siguiente enlace.

http://www.phon.ox.ac.uk/AudioBNC

Sub-corpus[editar]

Existen dos sub-corpus (subconjuntos de los datos BNC) para el público: "BNC baby" y "BNC Sampler", ambas puede pedirse en línea a través de la página web de BNC.[7]​"BNC baby" es un sub-corpus de BNC que consta de cuatro grupos de muestras, cada uno cuenta con un millón de palabras en la categoría. Las palabras de cada conjunto de muestras corresponden a una etiqueta de género específico, un conjunto de muestras contienen conversaciones habladas y los otros tres conjuntos de la muestra contiene textos escritos divididos en: escritura académica, ficción y periódicos respectivamente.[8]​ La última edición (tercera), salió a la venta y se presenta en formato XML.[9]

La "BNC Sampler" es un sub-corpus que consta de dos segmentos, una parte para cada uno de los datos escritos y hablados. Cada parte contiene un millón de palabras. Originalmente fue utilizado en un proyecto para encontrar la manera de mejorar el proceso de etiquetado (tagging) para el BNC, que finalmente llevan a la edición BNC Mundial. A lo largo del proyecto, la "BNC Sampler" mejoró al aumentar la experiencia y el conocimiento para etiquetar (tagging), lo cual conduce a las mejoras actuales que hoy ofrece.[10]

Etiquetado (Tagging)[editar]

El corpus de la BNC ha sido etiquetado con información gramática (parte de la oración). El sistema de marcado o Tagging, denominado "Garras", fue sufriendo cambios y mejoras mejoras para lograr la última actualización "CLAWS4", la cual sirve como herramienta para etiquetar a la BNC. CLAWS1 se basó en un Modelo Oculto de Markov (HMM) y cuando se emplea en el etiquetado automático logra etiquetar con éxito 96% a 97% de cada texto analizado. CLAWS1 se actualizó a CLAWS2, a partir de la necesidad de la eliminación del procesamiento manual para preparar los textos etiquetados automáticamente. La última versión, CLAWS4, incluye mejoras como la más potente habilidad de desambiguación lingüística (WSD), y la capacidad para diferenciar a la variación de la ortografía y el lenguaje de marcado. Posteriormente el sistema de etiquetado observó el aumento en las tasas de éxito para el tagging automático y la reducción del trabajo necesario para el proceso manual, manteniendo al mismo tiempo la eficacia y la eficiencia mediante la introducción de software para el reemplazo de cierto porcentaje del trabajo manual.[2][11]

Subsecuente mente, un nuevo sistema llamado "Plantillas Tagger" se introdujo para una función correctiva y más tarde se añadieron taggs para temas con mayor ambigüedad. El etiquetado manual sigue siendo necesario, ya que CLAWS4 todavía es incapaz de reconocer palabras extranjeras.[12][13]

Información técnica[editar]

El corpus sigue las recomendaciones de la Iniciativa de Codificación de texto, el cual incluye la anotación lingüísticacompleta y la información contextual.[14]

Acceso[editar]

La licencia para CLAWS4 , puede ser comprado para usar el etiquetador.[15]​ Alternativamente, la Universidad de Lancaster también ofrece un tagger.[16]

La BNC en sí puede ser ordenada como una licencia personal o institucional. La edición disponible es la edición de XML BNC y viene con el software que incluye el motor de búsqueda Xaira. Estos pedidos también puede llevarse a cabo a través de la página web BNC.[17]​ El corpus cuenta con un administrador en línea, BNCweb, el cual ha sido desarrollado para la edición de XML BNC. La interfaz está diseñada para ser fácil y de uso intuitivo, el programa ofrece características y funciones de consulta para el análisis del corpus, los usuarios pueden recuperar resultados y datos de búsquedas y análisis.[18]

Problemas con identificación del usuario[editar]

El BNC fue el primer corpus de texto de su tamaño en difundirse ampliamente. Esto podría atribuirse al la manera estándar del acuerdo entre los titulares de los derechos, por otra parte también se atribuye consorcio.Los derechos (DPI) son titulares de propiedad intelectual, se buscaron para su el acuerdo con la licencia estándar, sobre todo por la voluntad de incorporar sus materiales en el corpus sin excepción. Esta disposición de derechos puede facilitarse por la originalidad del concepto y la importante asociación con el proyecto.[6]

Sin embargo, fue un reto para mantener oculta la identidad de los contribuyentes sin desacreditar el valor de su trabajo. Cualquier clara alusión a la identidad de los contribuyentes fue eliminado y se discutió la alternativa de sustituir la identidad con un nombre diferente. Aun así, esta solución no se consideró factible.[6]

Anteriormente, a los contribuidores se les pidió únicamente incorporar versiones transcritas de su discurso y no uno creado por ellos, mientras que el permiso podría buscarse a partir de colaboradores iniciales, una vez más la falta de éxito en el proceso de anonimización significaba que sería un desafío buscar materiales de los contribuyentes iniciales. Al mismo tiempo dos factores agravan la falta de voluntad de los propietarios de derechos de propiedad intelectual a donar sus materiales: primeramente, los textos completos debían ser excluidos, y finalmente, no había ningún motivo para transmitir información a través del corpus, en particular desde el corpus sobre alguna base no comercial .[6]

Problemas y limitaciones[editar]

Categorías excesivamente amplias[editar]

Para el año 2001 la BNC aún no tenía la división de los textos en categorías más allá de los textos en dominio, y ninguna categorización de textos hablados excepto por el contexto y las clases demográficas o socioeconómicas, por ejemplo, una amplia variedad de textos imaginativos (novelas, cuentos, poemas y guiones de teatro) se incluyeron en el BNC, pero dichas inclusiones se consideraron inútiles ya que los investigadores no fueron capaces de recuperar fácilmente los subgéneros con los cuales se tenían que trabajar (por ejemplo poesías) ya que esta información se omitió en las cabeceras de los archivos y en toda la documentación BNC. Dicho esto, no había manera de saber si un texto "imaginativo" en realidad procedía de una novela, un cuento, un guion de teatro o una colección de poemas a menos que el título en realidad incluye palabras como "novela" o "poema".[19]

Con la introducción de una nueva versión en el 2002, surge el "World Edition BNC", el cual trató de solucionar este problema. Además de registros de dominio, en la actualidad hay 70 categorías de género para ambos textos hablados y los datos grabados, motivo por el cual los investigadores ahora pueden archivar o buscar específicamente por género.[20]

Aún después de las actualizaciones la aplicación sigue siendo complicada, ya que la asignación de un género o subgénero a un texto no es sencillo. Las divisiones son menos claras para los datos hablados que los datos escritos ya que no había más variación en el tema y ejecución. Además, siempre habrá posibles subconjuntos de géneros de cada subgénero. ¿A qué distancia se subdividen géneros se pre-determina por lo específico de la búsqueda, pero los investigadores tienen la opción de hacer las divisiones más generales o específicas en función de sus necesidades. La categorización es también un problema ya que algunos textos se considera parte de algún género interdisciplinario como la lingüística, incluyen contenido que posteriormente se clasifica en cualquiera de las artes o categorías de la ciencia debido al tipo de su contenido. Se advierte a los usuarios estar conscientes de estas posibilidades.[20]

Error de clasificación o errores ortográficos[editar]

Algunos textos pudieron clasificarse en la categoría incorrecta, por lo general se debe a un título engañoso. Los usuarios no siempre se puede confiar en los títulos de los archivos como indicios de su contenido real: Por ejemplo, muchos textos con "conferencia" en su título en realidad son los debates en clase o seminarios de tutoría que implica un grupo muy pequeño de personas, o eran conferencias populares (dirigida a un público general y no a los estudiantes en una institución de educación superior).[19]​ El motivo principal es que las etiquetas de género y subgénero sólo se pueden asignar a la mayoría de los textos en una categoría. Hay subgéneros dentro de los géneros y para cada texto el contenido puede no ser uniforme y pueden abarcar varios subgéneros.[20]​ Además las presiones de producción junto con información aún insuficiente en ese momento dieron lugar a decisiones precipitadas, las cuales originaron imprecisiones y falta de coherencia en los registros.[6]

Discurso hablado in-suficientemente representado[editar]

La proporción de material escrito que se habla en la BBC es de 10: 1.[6]​ Esto se debe a que los gastos de recolecta y transcripción de forma electrónica poseen un millón de palabras del lenguaje natural, lo cual es al menos 10 veces más alto que el costo de añadir otro millón de palabras del texto periódico. La mayoría de las personas podrían argumentar que el habla y la escritura son igualmente importantes en un idioma, motivo por el cual ambos deben ser representados por igual en el corpus.[6]

El BNC no es ideal para el estudio del discurso hablado ya que la mayoría de sus transcripciones son ortográficas o paralinguisticas que solo de caracterizan de manera ambiguan y apenas se alcanzan a distinguir.[21]

Útil sólo en el estudio de patrones gramaticales que tienen correlaciones léxicas distintivos[editar]

A pesar de ser una excelente fuente de información léxica, la BNC en realidad sólo se puede utilizar para estudiar un conjunto limitado de patrones gramaticales, en particular los que tienen una correlación léxica distintiva. Si bien es bastante fácil de encontrar todas las relaciones de la palabra "disfrutar", y que las clasifique de acuerdo a la categoría de la palabra siguiente, se requiere trabajo adicional para encontrar todos los casos de verbos seguidos de un gerundio, ya que el índice "SARA" no incluye categorías partes de voz, como "todos los verbos" o "todas las formas V con sufijo ing".[21]

Algunas correlaciones léxicas son también demasiado ambigua para que puedan ser utilizados en las consultas, cualquier búsqueda de oraciones restrictivas o no alusivas al tema, proporcionarían al usuario datos irrelevantes, esto de debe al número de usos de adverbios o pronombres en la lengua (por no mencionar la imposibilidad de identificar las oraciones de relativo con la supresión del pronombre, como en "el hombre que vi"). Determinadas categorías semánticas y pragmáticas (duda, conocimiento, desacuerdos, resúmenes, etc.) son difíciles de localizar por la misma razón.[21]

Situación de descripción limitada[editar]

Esto ocurre ante cambios gramaticales, por ejemplo en los enunciados, "si uno puede comparar el habla de los hombres y de las mujeres", "no se puede comparar el habla a las mujeres ya los hombres".[21]

No es apropiado para el estudio de distintos tipos de texto o géneros muy específicos[editar]

La naturaleza del BNC como un gran corpus mixto, hace inadecuado su uso para el estudio de los tipos de texto o géneros muy específicos, es probable que estén representados de manera equivocada y pueden no ser reconocibles desde la codificación. Por ejemplo, hay muy pocas cartas de negocios y encuentros de servicios en el BNC, y para aquellos que deseen explorar sus convenciones específicas, sería recomendable compilar un pequeño corpus incluyendo sólo los textos de esos tipos.[21]

BNC como una utilidad[editar]

Clases de Inglés[editar]

Existen dos maneras generales en las que el corpus puede ser empleado para el aprendizaje del lenguaje.[21]

En primer lugar, los editores y los investigadores podrían usar muestras del corpus para crear referencias de aprendizaje de idiomas, programas y otras herramientas o materiales relacionados, por ejemplo, la BNC fue utilizada por un grupo de investigadores japoneses como una herramienta para la creación de un sitio web que ayuda para el aprendizaje del idioma inglés, para algunos estudiantes de inglés con enfoques específicos.[22]​ La página web habilitó un segmento para que aprendices del idioma inglés descarguen frases por medio de grabaciones que pueden usar y escuchar, luego basan sus propios usos del idioma inglés en este segmento de frases. La BNC sirve como una fuente de la cual se extrajeron las expresiones de uso más frecuente. También en el uso de este sitio web los usuarios se basan en muestras y grabaciones de la BNC para guiarlos en su aprendizaje del idioma inglés.

Tal creación de materiales que facilitan el aprendizaje de idiomas implica el uso de muy grandes corpus (comparables con el tamaño de la BNC), así como los softwares avanzados y tecnología. Un candidato viable para ahorrar ingresos económicos y tiempo, aparte de la facilidad de proporcionar experiencia en el campo de la lingüística computacional, la cual se invierte en el desarrollo de este tipo de materiales de aprendizaje de idiomas.[21]

En segundo lugar, el análisis del corpus puede ser incorporado directamente en la enseñanza de idiomas y en el entorno del aprendizaje. Con este método, a los estudiantes del idioma se les da la oportunidad de clasificar los datos de idioma en el corpus y posteriormente formar conclusiones sobre los patrones y características de su idioma para su clasificación o caracterización. Este método implica una mayor cantidad de trabajo por pare del "aprendizaje basado en datos" de Tim Johns. Los datos del corpus utilizados para el aprendizaje se basan en datos relativamente más pequeños y por lo tanto las generalizaciones acerca de distintas lenguas pueden ser limitadas.[21]

En general, la BNC es útil como una fuente de referencia para fines de redacción y la percepción de texto. Particularmente la BNC se puede utilizar como una fuente de referencia cuando se estudia el uso de palabras individuales en diversos contextos, por lo que los alumnos se familiarizan con las diferentes formas de utilizar determinadas palabras en contextos adecuados.[21]

Además de la información relacionada con el lenguaje, existe información enciclopédica que también se encuentra en la BNC. Aquellos que estudian datos de la BNC también se introducen a las características culturales británicas y de ciertos estereotipos.[21]

Diccionarios Bilingües[editar]

La BNC era la fuente de más de 12.000 palabras y frases que se usan para la redacción de una amplia gama de diccionarios bilingües en la India en el año 2012, y la traducción de 22 idiomas locales en inglés. Esto fue parte de un movimiento más eficaz, con el fin de impulsar las mejoras en la educación y la preservación de las lenguas vernáculas de la India, asimilandose a una industria para la traducción.[23]

Pruebas y evaluaciones[editar]

El gran tamaño de la BNC proporciona un recurso a gran escala en la que evalúan los programas.[24]​ Se ha usado como un colchón para el examen "Text Encoding Initiative" (TEI) . El BNC también se ha utilizado para proporcionar 20 millones de palabras para evaluar los sistemas de adquisición y de subcategorización en inglés, como auxiliar para la iniciativa SENSEVAL la cual aporta al análisis computacional del significado.[25]

Proyectos académicos basados en la BNC[editar]

  • Evidencia colocacional de la British National Corpus[26]

Hoffman y Lehmann (2000) exploraron los mecanismos que subyacen a la capacidad de oradores para manipular su gran inventario de colocaciones que están listas para su uso y se pueden ampliar fácilmente de manera gramatical o sintáctica para adaptarse a la situación de voz actual. Las combinaciones de palabras que ocurren de manera inusual se extrajeron de la BNC para ofrecer una idea de ella.[26]

  • Excreción y enunciados: un estudio Corpus[27]

Fernández y Ginzburg (2002) investigaron un diálogo que está lleno de expresiones completas e intuitivas que no se enuncian en su forma exterior. Por lo general son respuestas cortas con respecto a las preguntas.

En su investigación, un corpus hacia los enunciados no oracionales se llevó a cabo en una sub-parte de la BNC para proporcionar una clasificación completa y fundamentada de los diálogos.[27]

  • Un curso EAP basado en corpus para los estudiantes de doctorado NNS: partir del corpus especializado a disposición de los corpus auto-compilados[28]

Lee & Swales (2006) diseñaron un curso experimental e innovador en inglés, un corpus para fines académicos (EAP), para estudiantes de doctorado en el apartado de "ELI" de la Universidad de Míchigan en los EE. UU.[28]

A los participantes se les dio acceso a los corpus especializados de la escritura académica y hablada, herramientas de trabajo (web y concordancias basado en PC) y gradualmente se presenten a las habilidades necesarias para aprovechar mejor los datos y las herramientas para el aprendizaje y auto-aprendizaje. Después del período de inducción, los participantes comenzaron a compilar dos corpus escritos adicionales: uno de sus propios escritos (los papeles del término, borradores de diario sin editar) y uno de escritura "experto", seleccionado entre las versiones electrónicas de los artículos publicados en su propio campo o subcampos. Los estudiantes pudieron hacer comparaciones entre su propia escritura y las de los escritores más destacados en su campo.[28]​ Los participantes utilizaron tres corpus principales como base de sus investigaciones: Investigación de Hyland con ayuda del artículo del Corpus, el Corpus Académico de Michigan en inglés (MI CASE) y los textos académicos de la BNC.[28]

Procesamiento natural del lenguaje[editar]

Como parte de un trabajo en curso sobre el procesamiento morfológico, en la cual se usó un área clave del procesamiento del lenguaje natural (NLP), los datos del BNC se utilizaron para probar la exactitud, fiabilidad y rapidez de herramientas computacionales desarrolladas para facilitar el análisis y el procesamiento de los marcadores morfológicos en el inglés británico.[29]​ Las herramientas computacionales involucradas en un programa, permitieron el análisis de la morfología e inflexión en inglés británico (conocido como un analizador) y un programa que genera marcas morfológicas basado en el análisis del analizador. Los datos de la BNC también se utilizaron para construir un amplio repositorio de información acerca de los marcadores morfológicos en inglés británico. En particular, aproximadamente 1.100 "lemmasPlantilla:Dn" se extrajeron de la BNC y se compilaron en una lista de control que fue consultada por el generador morfológico antes de que los verbos que permitieron una doble consonante se conjugaran con precisión.[29]

Aclamación ara la BBC[editar]

La BNC es ampliamente recomendado por los investigadores en el campo de la lingüística computacional dado a su enorme colección de palabras. El BNC representa un esfuerzo reconocible para recoger y procesar una gran cantidad de datos, posteriormente se convirtió en un precursor influyente en el campo y un modelo o ejemplo de corpus en la que se basa el desarrollo de otros corpus más tarde.[30]

BNC2014[editar]

En julio de 2014, fue anunciado por el Cambridge University Press y el Centro de Corpus de Enfoques de Ciencias Sociales (CASS) en la Universidad de Lancaster, que una nueva British National Corpus estaba bajo desarrollo .[31]​ La primera etapa del proyecto de colaboración entre las dos instituciones es organizar un nuevo corpus de inglés británico desde la primera mitad del 2010.[32]

Referencias[editar]

  1. Burnard, Lou; Aston, Guy (1998). The BNC handbook: exploring the British National Corpus. Edinburgh: Edinburgh University Press. p. xiii. ISBN 0-7486-1055-3. 
  2. a b c Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Corpus-based research into language: in honour of Jan Aarts». En N. Oostdjik & P. Haan, ed. The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. pp. 47-63. 
  3. a b c d e Leech, Geoffrey (1993). «100 million words of English». English Today 9 (1): 9-15. doi:10.1017/S0266078400006854. 
  4. a b What is the BNC?. Retrieved 12 March 2012.
  5. a b British National Corpus. Retrieved 12 March 2012.
  6. a b c d e f g Burnard, Lou (2002). «Where did we go wrong? A retrospective look at the British National Corpus». Archivado desde el original el 4 de marzo de 2016. Consultado el 14 de marzo de 2012. 
  7. «BNC Products». Consultado el 18 de marzo de 2012. 
  8. Burnard, Lou (2003). «Reference Guide for BNC-baby». Consultado el 18 de marzo de 2012. 
  9. «New edition of BNC Baby available». Consultado el 19 de marzo de 2012. 
  10. «BNC Sampler: XML edition». 2008. Consultado el 18 de marzo de 2012. 
  11. Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Claws4: The Tagging Of The British National Corpus». Paper given at COLING'94, Lancaster: UK. Consultado el 17 de marzo de 2012. 
  12. Leech, Geoffrey; Smith, Nicholas (2000). «The British National Corpus (Version 2) with Improved Word-class Tagging». UCREL, Lancaster University, UK. Consultado el 17 de marzo de 2012. 
  13. Leech, Geoffrey; Smith, Nicholas (2000). «Automatic POS-Tagging of the Corpus». UCREL, Lancaster University, UK. Consultado el 17 de marzo de 2012. 
  14. Burnard, Lou (1995). «Users Reference Guide for the British National Corpus». Consultado el 18 de marzo de 2012. 
  15. «Obtaining a license for the CLAWS tagger». UCREL, Lancaster University, UK. Consultado el 17 de marzo de 2012. 
  16. «The CLAWS tagging service». UCREL, Lancaster University, UK. Consultado el 17 de marzo de 2012. 
  17. «How to order». Consultado el 17 de marzo de 2012. 
  18. Hoffmann, Sebastian; Evert, Stefan (2008). Corpus linguistics with BNCweb: a practical guide. Peter Lang. ISBN 978-3-631-56315-1. 
  19. a b Lee, David (2001). GENRES, REGISTERS, TEXT TYPES, DOMAINS, AND STYLES 5 (3). pp. 37-72. Consultado el 15 de marzo de 2012. 
  20. a b c Lee, David (2002). «NOTES TO ACCOMPANY THE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX». Archivado desde el original el 23 de septiembre de 2013. Consultado el 17 de marzo de 2012. 
  21. a b c d e f g h i j Aston, Guy, (1998). «Learning English with the British National Corpus». Paper given at 6th Jornada de Corpus, Barcelona: UPF. Archivado desde el original el 25 de diciembre de 2009. Consultado el 16 de marzo de 2012. 
  22. Minn, Danny; Sano, Hiroshi; Ino, Marie; Nakamura, Takahiro (2005). «Using the BNC to create and develop educational materials and a website for learners of English». ICAME Journal 29: 99-113. Consultado el 12 de marzo de 2012. 
  23. «Bilingual dictionaries to promote India’s mother tongues». Times of Oman. 14 de marzo de 2012. Archivado desde el original el 31 de diciembre de 2010. Consultado el 17 de marzo de 2012. 
  24. «What can I do with the BNC?». Consultado el 18 de marzo de 2012. 
  25. Korhonen, Anna (2002). «EVALUATION RESOURCES for English Subcategorization Acquisition Systems». Archivado desde el original el 13 de diciembre de 2012. Consultado el 18 de marzo de 2012. 
  26. a b Sebastian Hoffmann and Hans-Martin Lehmann (2000) "Collocational Evidence from the British National Corpus", in John M. Kirk, ed. Corpora Galore: Analyses and Techniques in Describing English Amsterdam: Rodopi
  27. a b Fernandez, Raquel; Jonathan Ginzburg (29 de junio de 2002). Non-sentential utterances: A corpus study. Archivado desde el original el 27 de junio de 2015. Consultado el 1 de junio de 2016. 
  28. a b c d Lee, David; John Swales (2006). «A corpus-based EAP course for NNS doctoral students: Moving from available specialized corpora to self-compiled corpora». English for Specific Purposes 25 (1): 56-75. doi:10.1016/j.esp.2005.02.010. 
  29. a b Minnen, Guido; Carroll, John; Pearce, Darren (2001). «Applied Morphological Processing of English». Natural Language Engineering 7 (3): 207-223. doi:10.1017/s1351324901002728. 
  30. Čermák, František (2003). «Today's Corpus Linguistics: Some Open Questions». International Journal of Corpus Linguistics 7 (2): 265-282. doi:10.1075/ijcl.7.2.06cer. 
  31. Tony McEnery on Twitter. Retrieved 17 March 2015.
  32. "Centre for Corpus Approaches to Social Science". Retrieved 17 March 2015.

Enlaces externos[editar]