Por @Alvy — 22 de Diciembre de 2010

Una nueva herramienta llamada Google Ngram Viewer permite buscar y hacer gráficos con las palabras que aparecen en millones y millones de libros en papel que Google ha procesado y archivado en su vastos servidores. Se pueden comparar términos como por ejemplo el telex frente al fax y el email y hacer otras cosas divertidas, curiosas y prácticas.

Ngram-Pi

Pseudópodo se encontró con esta curiosidad, que no sabemos muy bien a qué obedece: la base de datos de Google Ngram Viewer también funciona con números. Y si se busca el número 3,1416 (π) la gráfica tiene dos visibles picos en los años que coinciden más o menos con las dos grandes guerras mundiales. ¿Simplemente coincidencia o hay alguna explicación lógica al respecto?

Compartir en Flipboard  Compartir en Facebook  Tuitear

26 comentarios

#1 — Juan

Con un nivel de especulación altísimo... ¿Para cálculos balísticos?

#2 — Juan

Upss! acabo de ver que está en juegos. ¿Se sabe la razón? En ese caso espero haberla cagado para no fastidiar el juego a los demás.

#3 — myNick

Y más raro es que si uno busca algo tipo PHP, tenga un pico (o meseta, bah) en 1900... (!!!!)

#4 — adverick

Sobretodo cuidado con los tres picos de 2.71828183 ;D

#5 — adverick

@myNick

PHP (for Peace, Happiness, and Prosperity for All)

Con que hagas click en el año encuentroras el compendio de libros que tienen asociado ese n-grama

#6 — markmb

Probando y jugando un poco (tambien pensando mal), he descubierto un dato interesante: en la literatura española, entre 1800 y 2000, se ha ido utilizando más la palabra "prostituta" que "puta", pero a partir de 1970, se pone al revés!!

Nos estamos volviendo menos "finos" cada año??

#7 — handruk

La respuesta:

http://www.google.com/search?q=%223.1416%22&tbs=bks:1,cdr:1,cd_min:1918,cd_max:1959&lr=lang_en

#8 — handruk

Una pista:

http://www.google.com/search?q=%223.1416%22&tbs=bks:1,cdr:1,cd_min:1918,cd_max:1959&lr=lang_en

#9 — Alfonso

Pues yo no lo se, pero miren lo que encontré al buscar "2012":

En inglés:
http://ngrams.googlelabs.com/graph?content=2012&year_start=1800&year_end=2008&corpus=0&smoothing=3

En español:
http://ngrams.googlelabs.com/graph?content=2012&year_start=1800&year_end=2008&corpus=10&smoothing=3

#10 — rulifu

Curioso es que en el siglo XVIII se escribiese sobre telephone... http://ngrams.googlelabs.com/graph?content=telephone&year_start=1700&year_end=2000&corpus=0&smoothing=3

#11 — maxihinz

Increible son los picos de la palabra iPod hacia 1900... (hasta 1999). No se por ni para que usarian esa palabra.

#12 — Señor K

Curioso tambien que "internet" aparezca en 1631 y 1682

#13 — Engel

igual que el uso de la palabra ufo en el pasado... el pico antes de 1700 y la caida en 1800
http://ngrams.googlelabs.com/graph?content=ufo&year_start=1600&year_end=2008&corpus=0&smoothing=3

#14 — Quaid

Cuidado con las mayúsculas, que varía muchísimo el sentido. Por ejemplo, Engel, prueba a buscar UFO, en lugar de ufo.
El sentido es así mucho mas lógico.

http://ngrams.googlelabs.com/graph?content=UFO&year_start=1600&year_end=2008&corpus=0&smoothing=3

Yo por mi parte he buscado una comparativa entre Jesus y Sexo, en ingles... con erótico resultado.

http://ngrams.googlelabs.com/graph?content=Jesus,sex&year_start=1600&year_end=2008&corpus=0&smoothing=3

Y en los últimos 110 años:
http://ngrams.googlelabs.com/graph?content=Jesus,sex&year_start=1900&year_end=2008&corpus=0&smoothing=3

La fe vuelve con fuerza muchachos.

#15 — Osvaldo

También es curioso el aumento de 3.14159 a lo largo del tiempo. Quizás vamos mejorando la exactitud de las medidas.

http://ngrams.googlelabs.com/graph?content=3.14159&year_start=1800&year_end=2000&corpus=0&smoothing=3

#16 — zhantyzgz

http://ngrams.googlelabs.com/graph?content=3.14159&year_start=1500&year_end=2008&corpus=0&smoothing=50
Mirad esto.

#17 — Alan Braun

No aporta mucho al tema de pi, pero les dejo mis 2 ngramas favoritos que echan luz definitiva sobre los grandes secretos de la vida...

http://ngrams.googlelabs.com/graph?content=Ciencia%2CReligi%C3%B3n&year_start=1800&year_end=2012&corpus=10&smoothing=3

http://ngrams.googlelabs.com/graph?content=The+Beatles%2C+The+Rolling+Stones&year_start=1800&year_end=2008&corpus=0&smoothing=3

Felices fiestas!

#18 — Luisinho

A los NGram Viewers les están empezando a caer críticas por su acientificidad.

http://thelousylinguist.blogspot.com/2010/12/ngram-roundup.html

Así que, ya que es acientífico, no voy a aventurar hipótesis porque probablemente los datos de partida ya serán inexactos.

#19 — Dani

Aquí parecemos pesimistas

http://ngrams.googlelabs.com/graph?content=si%2Cno&year_start=1750&year_end=2008&corpus=10&smoothing=5

y aquí optimistas

http://ngrams.googlelabs.com/graph?content=bueno%2Cmalo&year_start=1750&year_end=2008&corpus=10&smoothing=5

Aunque al final gana el optimismo

http://ngrams.googlelabs.com/graph?content=optimista%2Cpesimista&year_start=1750&year_end=2008&corpus=10&smoothing=5

#20 — Cristhian

Comparación entre Satanás y Jesús:

http://ngrams.googlelabs.com/graph?content=satan%C3%A1s%2Cjesucristo&year_start=1500&year_end=2008&corpus=10&smoothing=3

Muy interesante también la correlación entre "muerte" y "vida":

http://ngrams.googlelabs.com/graph?content=muerte%2Cvida&year_start=1500&year_end=2008&corpus=10&smoothing=3

#21 — C

¿¿No será por algo tan lógico como que durante las dos guerras el desarrollo tecnológico global (ojo que hablo de tecnología en general y no solo de electrónica) creció mucho más de lo que lo había hecho antes o después, debido al gran esfuerzo bélico??

y ¿¿hay algún número más ingenieril que pi??

#22 — Ludovico Jakobsen

Para mi el fallo de google books (y por extensión ngrams) es:
1) El OCR funciona regular.
Por ejemplo, en este libro de 1651, donde segun google pone "internet", en realidad pone "me grace": http://tinyurl.com/35naax4
2) hay algunos libros que no estan datados correctamente.

El resto de críticas al sistema se basan en que no es adecuado para lo que el crítico quería (http://thelousylinguist.blogspot.com/2010/12/ngram-roundup.html): que si solo son libros y no revistas, que si no acepta "wildcards", o si los resultados aportan muy poca información.
Ninguna de estas críticas (ni la que he hecho yo) hacen de ngrams un sistema acientífico. Todos los sistemas de medición tienen un margen de error, hay que vivir con eso.

#23 — Sergio Caicedo

Por curiosidad.. peace.. la usamos cada vez menos... el momento cumbre fue hace mas de 2 siglos.

http://ngrams.googlelabs.com/graph?content=peace&year_start=1000&year_end=2000&corpus=0&smoothing=3

#24 — JaPh

Esta búsqueda está mucho mejor:
geeks vs. nerds

#25 — Dirk

El punto donde sex rebasa a love es en 1970, y sufre una aceleración impresionante, y love sigue decayendo desde entonces.

#26 — Luisinho

@22:

El uso de solamente libros y no revistas, o correspondencia personal, o enciclopedias, SÍ es relevante, porque si no están representados esos formatos lo que se representa es una parte de la cultura de la época, no toda, por lo que los resultados no son correctos.

Al igual que en demoscopia, en lingüística de corpus la muestra tiene que ser representativa. Coger sólo los libros hace que no lo sea.

Por otra parte, la distribución temporal tampoco es uniforme, y aunque los resultados sean normalizados (que lo son), los picos dejan de ser representativos cuando el número de muestras es demasiado bajo.

Y por último, tiene esos problemas de clasificación y de OCR, que son corregibles, pero que aún no lo están.

N-Gram Viewer: juego si, herramienta científica no.