Lingüística matemática: Palabras y Número. Ley de Zipf (y III)

En la pasada entrega hicimos un esbozo de la Ley de Zipf. Aunque pudiera sorprender y resultar increíble, esta ley de 1940 del lingüista de la Universidad de Harvard George Kingsley Zipf ha hecho un gran servicio para conocer la evolución de las grandes ciudades de todos los países del mundo durante el siglo pasado.

Se puede decir que el descubrimiento por parte de Zipf nos invita a dirigirnos a los primeros pasos de la Informetría, ciencia que trata de medir las características cuantitativas de la información. Desde que Vasili Vasílievich Nalímov (filósofo, humanista, profesor en la Universidad Estatal de Moscú investigador en las áreas de la filosofía de la probabilidad y sus manifestaciones biológicas, matemáticas y lingüísticas, así como la psicología transpersonal, para mayor información visitar: http://integralleadershipreview.com/8514-professor-v-v-nalimov-a-man-who-surpassed-his-time/. También estudió los roles del gnostiscismo y misticismo en la ciencia) acuñó el término Cienciometría en la década de 1960, expresión que ha crecido en popularidad y se utiliza para describir el estudio de la ciencia: crecimiento, estructura, interrelaciones y productividad. La Cienciometría está relacionada y tiene intereses superpuestos con la Bibliometría y la Informetría, términos que se refieren a campos relacionados con el estudio de la dinámica de disciplinas reflejada en la producción de su literatura. Las áreas de estudio van desde registrar cambios en la producción de un campo académico a través del tiempo y entre países, al problema de la colección bibliotecaria de mantener el control de la producción, y la productividad de publicación de la mayoría de los investigadores. En la actualidad la Informetría es una ciencia de gran requerimiento, consecuencia del cual los sistemas informáticos (motores de búsqueda) de las empresas multinacionales especializadas en servicios y productos relacionados con Internet, como la americana Google y la rusa Yantex, deciden la popularidad de los sitios y el grado en que coinciden con la consulta de búsqueda.

Juan M.R. Parrondo, Profesor del Departamento de Física Atómica, Molecular y de la Universidad Complutense de Madrid, y excelente divulgador científico en su artículo de Investigación y Ciencia de febrero de 2003, Números y Palabras afirma:

"… exploramos una sorprendente regularidad en la estadística de un texto literario, la ley de Zipf. La ley nos dice que, si ordenamos las palabras que aparecen en un texto de más a menos frecuentemente, la repetición con la que aparece una palabra en el texto es inversamente proporcional al puesto que ocupa en la lista con una constante de proporcionalidad que es aproximadamente igual al número de palabras diferentes que aparecen en el texto. Es decir, la frecuencia de una palabra es: f (r) = V/r donde V es el número de palabras diferentes que aparecen en él, y r el rango de la palabra, o lugar que ocupa en la lista en la que todas las palabras del texto se ordenan de más a menos frecuentes…".

Voy a poner un ejemplo muy cercano que se asemeja al resultado que presenta Parrondo en el artículo citado ut-supra. "…En la novela de Gabriel García Márquez Cien años de soledad, que tiene un vocabulario de 16019 palabras, la palabra de es la más común y aparece 8.684 veces. Como es la palabra más común, su rango es 1 y la fórmula de la ley de Zipf predice para de una frecuencia igual a 16019. Esta cifra es casi el doble de la frecuencia real de la palabra por lo que parece, en principio, que la ley falla estrepitosamente…".

Siguiendo a Parrando, el artículo de la semana pasada en Tiempo de Academia, tiene 5.899 caracteres con espacios que representan 965 palabras. Además, la palabra de es la más común y aparece 90 veces. Como es la palabra más común, su rango es 1, y la fórmula de la Ley de Zipf predice para la palabra de una frecuencia igual a 965. Esta cifra es diez veces la de la frecuencia real por lo que parece, en principio, que la ley falla estrepitosamente. Si la aplicamos la ley a la siguiente palabra, la, que aparece 58 veces, vemos que la discrepancia aplicando la ley es menor, del orden de poco más de ocho veces, pero sigue siendo considerable. Si seguimos experimentando vemos que la tercera letra que sigue la ley es que, aparece 32 veces sigue también siendo importante. Sin embargo, esas discrepancias no son tan grandes cuándo se trata de un texto largo, no como el caso que nos ocupa por no ser demasiado extenso.

Existen algunas modificaciones de la ley de Zipf que se aproximan mejor a las frecuencias reales de las palabras. La ley original, aunque es sólo válida de modo aproximado, permite hacer algunas predicciones interesantes acerca de la estadística de un texto. Una de ellas es la relación entre el tamaño de un texto o número total de palabras que lo componen, y su vocabulario. Esta relación nos da una idea de la riqueza de vocabulario de cada texto. El tamaño de un texto se puede obtener sumando todas las frecuencias del vocabulario. Si el vocabulario es muy grande al lector con algunos conocimientos de matemáticas superiores no le resultará difícil entender que esta aproximación consiste en sustituir la suma por una integral dando lugar a un resultado donde aparecen logaritmos, válido para cualquier texto, siempre que éste cumpla la ley de Zipf. Como esta ley se aplica a cualquier tipo de texto en cualquier idioma, el resultado sorprendente es que todos los textos en todos los idiomas tienen aproximadamente la misma riqueza de vocabulario. ¡Curioso resultado!

Google y Blackstone invertirán 50.000 millones de dólares en centros de IA y energía en Pensilvania

Tesla expande Robotaxi, su servicio de vehículos autónomos

Exposiciones, música y teatro, este miércoles en Huelva

Premios Emmy 2025: Lista completa de nominados