Por @Alvy — 9 de Noviembre de 2006

La primera parte de El ingenioso hidalgo don Quijote de la Mancha, por Miguel de Cervantes Saavedra, procesado por frecuencias de palabras a partir del original almacenado en modo texto en Proyecto Gutenberg, arroja estos resultados:

  • Contiene 211.560 palabras
  • De las cuales 15.781 son distintas
  • En total hay más de 800.000 letras y signos ortográficos
  • La palabra que es la más frecuente y aparece 10.611 veces (también hay 319 qué).
  • Le siguen, por este orden: de, y, la, a, en, el, no, se, los, con, por, su, lo, le, las, me, como y del. Después viene don que sería primera palabra menos común de las palabras comunes, aunque aparece 1.019 veces (el resto aparecen menos de mil veces).
  • Contiene 19.378 comas y 4.675 puntos.
  • La palabra Quijote aparece 839 veces; Sancho, 659 y Dulcinea, 88.
  • La primera palabra por orden alfabético es a y la última, zuzaban, superando a zurrón que es la penúltima.
Actualización: Los amantes de las cuestiones irrelevantes sobre frecuencias de palabras y los textos aleatorios generados por ordenador encontrarán interesante El Quijote de Markov, un apunte en La Singularidad Desnuda. En ese hilo de comentarios Iván habla de Babel, un programa para Windows que genera textos aleatorios con cadenas de Markov a nivel de letras, en varios órdenes configurables por el usuario.

Compartir en Flipboard  Compartir en Facebook  Tuitear

Microsiervos Selección


Lightning Strikes

EUR 27,21

Comprar


Brainfilling Curves: A Fractal Bestiary

EUR 49,05 (Reseña en Microsiervos)

Comprar


Amazon Associates

Los productos aquí enlazados están a la venta en Amazon. Incluyen un código de Afiliado Amazon Associates que nos cede un pequeño porcentaje de las ventas. Los productos están seleccionados por los autores del blog, pero ni Amazon ni los editores de los libros o fabricantes de los productos participan en dicha selección.

Más libros y productos en:

Microsiervos Selección