Acerca de los datos

n-gramas funciona con una colección de aproximadamente 1'850.000 artículos de prensa. Estos datos provienen de tres publicaciones colombianas: el periódico El Tiempo y las revistas Semana y Dinero. La muestra utilizada incluye artículos publicados desde julio de 1982 hasta julio de 2011, de donde se eliminaron los artículos repetidos y aquellos que no resultaban útiles para este análisis.

Los textos de los artículos son divididos en n-grama y se cuenta la cantidad de veces que aparace un n-grama cada mes. Un n-grama está formado por n palabras que aparecen consecutivamente en los textos. Por ejemplo, éstos son los n-gramas de la frase

La carrera comenzó a las 3 de la tarde

1-gramas:

2-gramas:

3-gramas:

Al generar los n-gramas, los articulos fueron modificados siguiendo estos pasos:

Formato de los datos

Hay 6 archivos con la cantidad de aparciones de los n-gramas, uno para cada longitud (1-grama, 2-gramas, ..., 6-gramas), y otro archivo con el total de n-gramas por mes. Los totales incluye los n-gramas de todas las longitudes.

Los archivos de los n-gramas tienen columnas separadas por tabulaciones (\t), usando el siguiente formato:

n-grama \t año \t mes \t cantidad

Por ejemplo, éstas son 4 líneas del archivo que contiene los 1-gramas:

asombro    1992    10      15
asombro    1993    2       11
asombro    1993    5       13
asombro    1993    10      14

El ejemplo muestra que, en la muestra de artículos seleccionados, el n-grama asombro aparece 15 veces en octubre de 1992, 11 veces en febrero de 1993, 13 veces en mayo de 1993 y 14 veces en octubre del mismo año.

El archivo con los totales tiene un formato similar:

año \t mes \t total

Éste ejemplo incluye la cantidad de n-gramas que aparecen cada mes, desde noviembre de 1992 hasta marzo de 1993:

1992    11      2834690
1992    12      2482832
1993    1       2190298
1993    2       2245319
1993    3       2790096

Condiciones de uso

Los archivos están disponibles bajo las condiciones de la licencia de Creative Commons Reconocimiento-CompartirIgual 4.0 Internacional. Esta licencia permite usar y adaptar los datos, siempre y cuando se reconzca la autoría y las modificaciones sean compartidas de la misma forma.

Archivos para descargar