Ir al contenido

Usuario:Tian2992/Lista de palabras

De Wikipedia, la enciclopedia libre

Una lista de palabras (o conteo léxico) es una lista del léxico de un idioma (generalmente ordenado por frecuencia de aparición, ya sea por niveles o como una lista clasificada) dentro de un corpus de texto determinado, que sirve para la adquisición de vocabulario . Un léxico ordenado por frecuencia "proporciona una base racional para garantizar que los alumnos obtengan el mejor rendimiento por su esfuerzo de aprendizaje de vocabulario" ( Nation, 1997 ), pero está destinado principalmente a los redactores de cursos, no directamente a los alumnos.

Las listas de frecuencia también se elaboran con fines lexicográficos, y sirven como una especie de lista de verificación para garantizar que no se omitan palabras comunes. Algunos errores importantes son el contenido del corpus, el registro del corpus y la definición de " palabra ". Si bien el conteo de palabras tiene mil años de antigüedad y los análisis aún gigantescos se realizan a mano a mediados del siglo XX, el procesamiento electrónico en lenguaje natural de grandes corpus, como los subtítulos de películas (el estudio SUBTLEX), ha acelerado el campo de la investigación.

En lingüística computacional, una lista de frecuencias es una lista ordenada de palabras (tipos de palabras) junto con su frecuencia, donde frecuencia aquí generalmente significa el número de apariciones en un corpus determinado, del cual se puede derivar el rango como la posición en la lista.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Pellentesque quis odio et nulla ultricies viverra. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia curae; Sed venenatis euismod convallis. Aenean blandit rhoncus ex in feugiat. Nam quis mattis odio, ullamcorper viverra ligula. Phasellus lectus ex, hendrerit sit amet consectetur in, consectetur ut orci. Aliquam purus nisl, interdum ut vehicula sit amet, varius posuere mauris. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Pellentesque maximus, velit non cursus interdum, nisi dui tempor eros, ut lobortis eros nibh eget magna.

Morbi a ante sed odio lacinia fermentum. Proin turpis orci, cursus ac sagittis vel, fermentum vel ligula. Ut vitae purus ex. Suspendisse nec venenatis risus. Interdum et malesuada fames ac ante ipsum primis in faucibus. Suspendisse quis varius erat, blandit consequat sem. Donec varius laoreet accumsan. Donec ornare, augue nec mollis scelerisque, est nisl tincidunt metus, et lobortis elit nisi in nisi. Curabitur hendrerit, quam non condimentum luctus, nisl mi ullamcorper enim, vitae volutpat lorem est nec ligula. Suspendisse eleifend, dolor sed auctor viverra, orci urna mollis nisl, mollis porta lectus diam a lacus. Pellentesque bibendum consequat nisl id aliquet. Fusce in lacinia ante. Orci varius natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Nam ut sem et quam tincidunt mattis.

Donec sed sodales lacus. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Aenean mollis, diam non ultricies sagittis, turpis leo aliquet est, sit amet congue mi quam eleifend quam. Donec et imperdiet urna. Sed quis finibus eros. Quisque accumsan sapien eu placerat fermentum. Ut et tortor leo. Nullam suscipit sem at metus malesuada varius. Maecenas vitae rhoncus orci, sed scelerisque dolor. Etiam convallis ornare mauris. Nunc iaculis ultricies lectus ut interdum. Curabitur tristique gravida quam, quis lacinia velit aliquam eu. Phasellus porttitor quam et dolor vestibulum viverra. Integer congue leo ac congue interdum. Aliquam suscipit elit velit. Pellentesque eget sem sapien.

Integer est nisi, porta vitae arcu quis, feugiat cursus dolor. Mauris massa erat, fermentum id feugiat et, porttitor sed nulla. Integer ut ornare sem, id posuere lorem. Etiam volutpat, mi at tempus pretium, enim dui cursus sem, convallis rutrum quam risus id tortor. Nunc euismod, sem sed vestibulum iaculis, neque arcu varius nulla, eget fermentum quam risus nec urna. In vitae lacus tortor. Phasellus feugiat et orci ac hendrerit. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Suspendisse consectetur vitae tortor condimentum mollis.

Metodología

[editar]

Nation, 1997 destacó la increíble ayuda que brindan las capacidades informáticas, lo que hace que el análisis de corpus sea mucho más fácil. Esto causo un cambio radical en la cuenta de palabras.Citó varias cuestiones clave que influyen en la elaboración de listas de frecuencias:

  • representatividad del corpus
  • frecuencia y rango de palabras
  • tratamiento de familias de palabras
  • Tratamiento de modismos y expresiones fijas.
  • rango de información
  • varios otros criterios

Corpus

[editar]

Corpus escrito tradicional

[editar]
Frecuencia de los pronombres personales en serbocroata

La mayoría de los estudios disponibles iniciales fueron basados en corpus de texto escrito, más fácilmente disponibles y fáciles de procesar.

Movimiento SUBTLEX

[editar]

Sin embargo, New et al., 2007 propuso aprovechar la gran cantidad de subtítulos disponibles en línea para analizar un gran número de discursos. Brysbaert y New, 2009 realizó una larga evaluación crítica de este enfoque tradicional de análisis textual y apoya un avance hacia el análisis del habla y el análisis de los subtítulos de películas disponibles en línea. Esto ha sido seguido recientemente por un puñado de estudios de seguimiento, [1]​ que proporcionan un valioso análisis de recuento de frecuencia para varios idiomas.

De hecho, el movimiento SUBTLEX completó en cinco años estudios completos de francés ( New et al., 2007 ), inglés americano ( Brysbaert y New, 2009 ; Brysbaert, New y Keuleers, 2012 ), holandés ( Keuleers y New, 2010 ), chino ( Cai y Brysbaert, 2010 ), español ( Cuetos et al., 2011 ), griego ( Dimitropoulou et al., Carreiras ), vietnamita ( Pham, Bolger y Baayen, 2011 ), portugués de Brasil ( Tang, 2012 ) y portugués de Portugal ( Soares et al., Simões ), albanés ( Avdyli y Cuetos, 2013 ), polaco ( Mandera et al., 2014 ) y catalán (2019 [2]​ ). SUBTLEX-IT (2015) proporciona únicamente datos sin procesar. [3]

Unidades léxicas

[editar]

En cualquier caso, se debe definir la unidad básica "palabra". Para las escrituras latinas, las palabras suelen tener uno o varios caracteres separados por espacios o puntuación. Pero pueden surgir excepciones, como el inglés "can't", el francés "aujourd'hui" o modismos. También puede ser preferible agrupar palabras de una familia de palabras bajo la representación de su palabra base . Por lo tanto, posible, imposible y posibilidad son palabras de la misma familia de palabras, representadas por la palabra base *possib* . Para fines estadísticos, todas estas palabras se resumen bajo la forma de palabra base *possib*, lo que permite clasificar un concepto y la aparición de una forma.

Además, otras lenguas pueden presentar dificultades específicas. En lenguajes con ideogramas, como es el caso del chino, que no utiliza espacios entre palabras y donde una cadena específica de varios caracteres puede interpretarse como una frase de palabras de un solo carácter o como una palabra de varios caracteres.

Estadísticas

[editar]

Parece que la ley de Zipf se cumple para listas de frecuencias extraídas de textos más largos de cualquier lenguaje natural. Las listas de frecuencias son una herramienta útil a la hora de crear un diccionario electrónico, que es un requisito previo para una amplia gama de aplicaciones en lingüística computacional .

Los lingüistas alemanes definen la Häufigkeitsklasse (clase de frecuencia) de un elemento de la lista utilizando el logaritmo en base 2 de la relación entre su frecuencia y la frecuencia del elemento más frecuente.

El ítem más común pertenece a la clase de frecuencia 0 (cero) y cualquier ítem que sea aproximadamente la mitad de frecuente pertenece a la clase 1. Por ejemplo en una lista de ejemplo, una palabra mal escrita como aberiguo puede tener una proporción de decenas sobre millones, y asi pertenece a una clase muy elevada.

dónde es la función suelo .

Las listas de frecuencias, junto con las redes semánticas, se utilizan para identificar los términos especializados menos comunes que serán reemplazados por sus hiperónimos en un proceso de compresión semántica .

Pedagogía

[editar]

Las listas de palabras no están destinadas a entregarse directamente a los estudiantes, sino más bien a servir como guía para profesores y autores de libros de texto ( Nation, 1997 ). El resumen de enseñanza de idiomas modernos de Paul Nation alienta primero a "pasar del vocabulario de alta frecuencia y el vocabulario [temático] de propósitos especiales al vocabulario de baja frecuencia, y luego a enseñar a los estudiantes estrategias para sostener la expansión autónoma del vocabulario" ( Nation, 2006 ).

Efectos de la frecuencia de las palabras.

[editar]

Se sabe que la frecuencia de las palabras tiene varios efectos ( Brysbaert et al., Bölte ; Rudell, 1993 ). La memorización se ve afectada positivamente por una mayor frecuencia de palabras, probablemente porque el alumno está sujeto a más exposiciones ( Laufer, 1997 ). El acceso léxico se ve influenciado positivamente por la alta frecuencia de palabras, un fenómeno llamado efecto de frecuencia de palabras ( Segui, Mehler y Frauenfelder, Morton1982 ). El efecto de la frecuencia de las palabras está relacionado con el efecto de la edad de adquisición, la edad a la que se aprendió la palabra.

Idiomas

[editar]

Inglés

[editar]

El conteo de palabras es un campo antiguo, [4]​ con discusiones conocidas desde la época helenística . En 1944, Edward Thorndike, Irvin Lorge y sus colegas [5]​ contaron manualmente 18.000.000 de palabras para obtener la primera lista de frecuencias del idioma inglés a gran escala, antes de que las computadoras modernas hicieran mucho más fáciles estos proyectos ( Nation, 1997 ).

Las obras del siglo XX sufren por su edad. En particular, las palabras relacionadas con la tecnología, como "blog", que, en 2014, ocupaba el puesto 7665 en frecuencia [6]​ en el Corpus of Contemporary American English, [7]​ se atestiguó por primera vez en 1999, [8][9][10]​ y no aparece en ninguna de las listas anteriores.

Francés

[editar]

New, Pallier ha realizado una reseña respecto al desarollo de listas en Frances. En las décadas de 1950 y 1960 se hizo un intento con el Français fundamental . Incluye la lista FF1 con 1.500 palabras de alta frecuencia, completada por una lista FF2 posterior con 1.700 palabras de frecuencia media y las reglas de sintaxis más utilizadas. [11]​ Se afirma que 70 palabras gramaticales constituyen el 50% de la oración comunicativa, [12][13]​ mientras que 3680 palabras representan aproximadamente el 95-98% de la cobertura. [14]​ Está disponible una lista de 3000 palabras frecuentes. [15]

El Ministerio de Educación francés también proporciona una lista clasificada de las 1.500 familias de palabras más frecuentes, proporcionada por el lexicólogo Étienne Brunet . [16]​ Jean Baudot realizó un estudio siguiendo el modelo del estudio americano Brown, titulado "Fréquences d'utilisation des mots en français écrit contemporain". [17]

Más recientemente, el proyecto Lexique3 proporciona 142.000 palabras francesas, con ortografía, fonética, silabación, parte de la oración, género, número de apariciones en el corpus fuente, rango de frecuencia, lexemas asociados, etc.

El Lexique3 esta disponible bajo una licencia abierta CC-by- sa-4.0 . [18]

El Lexique3 es un estudio continuo del que se origina el movimiento Subtlex antes citado. New et al., 2007 se realizó un recuento completamente nuevo basado en los subtítulos de películas online.

Español

[editar]

Se han realizado varios estudios sobre la frecuencia de palabras en español ( Cuetos et al., 2011 ). [19]

Chino

[editar]

Los corpus chinos se han estudiado durante mucho tiempo desde la perspectiva de las listas de frecuencias. La forma histórica de aprender vocabulario chino se basa en la frecuencia de los caracteres ( Allanic, 2003 ). El sinólogo estadounidense John DeFrancis mencionó su importancia para el aprendizaje y la enseñanza del chino como lengua extranjera en Why Johnny Can't Read Chinese ( DeFrancis, 1966 ). Como conjunto de herramientas de frecuencia, Da ( Da, 1998 ) y el Ministerio de Educación de Taiwán ( TME, 1997 ) proporcionaron grandes bases de datos con clasificaciones de frecuencia para caracteres y palabras. La lista HSK de 8.848 palabras de alta y media frecuencia en la República Popular China y la lista TOP de la República de China (Taiwán) de aproximadamente 8.600 palabras comunes del chino tradicional son otras dos listas que muestran palabras y caracteres chinos comunes. Siguiendo el movimiento SUBTLEX, Cai y Brysbaert, 2010 realizaron recientemente un rico estudio de las frecuencias de palabras y caracteres chinos.

Otro

[editar]

Wikcionario: Las listas de frecuencias contienen listas de frecuencias en más idiomas. [20]

Referencias

[editar]

[[Categoría:Lingüística computacional]] [[Categoría:Lingüística cuantitativa]] [[Categoría:Wikipedia:Páginas con traducciones sin revisar]]

  1. «Crr » Subtitle Word Frequencies». 
  2. Boada, Roger; Guasch, Marc; Haro, Juan; Demestre, Josep; Ferré, Pilar (1 de febrero de 2020). «SUBTLEX-CAT: Subtitle word frequencies and contextual diversity for Catalan». Behavior Research Methods (en inglés) 52 (1): 360-375. ISSN 1554-3528. PMID 30895456. doi:10.3758/s13428-019-01233-1. 
  3. Amenta, Simona (7 January 2022). «SUBTLEX-IT». 
  4. Bontrager, Terry (1 de abril de 1991). «The Development of Word Frequency Lists Prior to the 1944 Thorndike-Lorge List». Reading Psychology 12 (2): 91-116. ISSN 0270-2711. doi:10.1080/0270271910120201. 
  5. «APA PsycNet». psycnet.apa.org (en inglés). Consultado el 15 de mayo de 2023. 
  6. «Words and phrases: Frequency, genres, collocates, concordances, synonyms, and WordNet». 
  7. «Corpus of Contemporary American English (COCA)». 
  8. «It's the links, stupid». The Economist. 20 de abril de 2006. Consultado el 5 de junio de 2008. 
  9. Merholz, Peter (1999). «Peterme.com». Internet Archive. Archivado desde el original el 13 de octubre de 1999. Consultado el 5 de junio de 2008. 
  10. Kottke, Jason (26 de agosto de 2003). «kottke.org». Consultado el 5 de junio de 2008. 
  11. «Le français fondamental». Archivado desde el original el 4 July 2010.  Parámetro desconocido |url-status= ignorado (ayuda)
  12. Ouzoulias, André (2004), Comprendre et aider les enfants en difficulté scolaire: Le Vocabulaire fondamental, 70 mots essentiels, Retz . - Citing V.A.C Henmon (dead link, no Internet Archive copy, 10 August 2023)
  13. Liste des "70 mots essentiels" recensés par V.A.C. Henmon
  14. «Generalities». 
  15. «PDF 3000 French words». 
  16. «Maitrise de la langue à l'école: Vocabulaire». Ministère de l'éducation nationale. 
  17. Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain, Presses de L'Université, ISBN 978-2-7606-1563-2 .
  18. «Lexique». 
  19. «Spanish word frequency lists». Vocabularywiki.pbworks.com. 
  20. Wiktionary:Frequency lists .