Acerca de los datos
n-gramas funciona con una colección de aproximadamente 1'850.000 artículos de prensa. Estos datos provienen de tres publicaciones colombianas: el periódico El Tiempo y las revistas Semana y Dinero. La muestra utilizada incluye artículos publicados desde julio de 1982 hasta julio de 2011, de donde se eliminaron los artículos repetidos y aquellos que no resultaban útiles para este análisis.
Los textos de los artículos son divididos en n-grama
y se cuenta
la cantidad de veces que aparace un n-grama
cada mes. Un
n-grama
está formado por n
palabras que aparecen
consecutivamente en los textos. Por ejemplo, éstos son los n-gramas de la frase
La carrera comenzó a las 3 de la tarde
1-gramas:
- La
- carrera
- comenzó
- a
- las
- 3
- de
- la
- tarde
2-gramas:
- La carrera
- carrera comenzó
- comenzó a
- a las
- las 3
- 3 de
- de la
- la tarde
3-gramas:
- La carrera comenzó
- carrera comenzó a
- comenzó a las
- a las 3
- las 3 de
- 3 de la
- de la tarde
Al generar los n-gramas, los articulos fueron modificados siguiendo estos pasos:
- Dividir los textos en párrafos y frases.
- Convertir todo el texto en minúsculas.
- Eliminar algunos signos de puntuación.
Formato de los datos
Hay 6 archivos con la cantidad de aparciones de los n-gramas, uno para cada longitud (1-grama, 2-gramas, ..., 6-gramas), y otro archivo con el total de n-gramas por mes. Los totales incluye los n-gramas de todas las longitudes.
Los archivos de los n-gramas tienen columnas separadas por
tabulaciones (\t
), usando el siguiente formato:
n-grama \t año \t mes \t cantidad
Por ejemplo, éstas son 4 líneas del archivo que contiene los 1-gramas:
asombro 1992 10 15 asombro 1993 2 11 asombro 1993 5 13 asombro 1993 10 14
El ejemplo muestra que, en la muestra de artículos seleccionados, el n-grama asombro aparece 15 veces en octubre de 1992, 11 veces en febrero de 1993, 13 veces en mayo de 1993 y 14 veces en octubre del mismo año.
El archivo con los totales tiene un formato similar:
año \t mes \t total
Éste ejemplo incluye la cantidad de n-gramas que aparecen cada mes, desde noviembre de 1992 hasta marzo de 1993:
1992 11 2834690 1992 12 2482832 1993 1 2190298 1993 2 2245319 1993 3 2790096
Condiciones de uso
Los archivos están disponibles bajo las condiciones de la licencia de Creative Commons Reconocimiento-CompartirIgual 4.0 Internacional. Esta licencia permite usar y adaptar los datos, siempre y cuando se reconzca la autoría y las modificaciones sean compartidas de la misma forma.