Gracias a la generosa hemeroteca que pone a disposición de sus lectores ElMundo.es he podido recopilar los titulares de la edición digital de este periódico desde el 03/07/2002 al 28/02/2013, un total de 3894 titulares. No ha sido un trabajo especialmente difícil, tan solo me he limitado a descargar cada página y analizar el contenido para detectar, con una de mis pequeñas aplicaciones, la posición del titular dentro del código html.
Al final de la recopilación de titulares he obtenido un archivo con una estructura similar a esta:
03/07/2002 Los controladores suizos tenían apagado el aparato que alerta de un inminente choque en el aire
04/07/2002 Batasuna debe pagar hoy 24 millones de para evitar el embargo dictado por Garzón
05/07/2002 El FBI identifica a un egipcio como autor del tiroteo en Los Ángeles contra una línea israelí
.
.
.
26/02/2013 El indulto a Sáenz fue una ‘clara extralimitación’, dice el Tribunal Supremo
27/02/2013 Rajoy anuncia un déficit del 6,7% el año pasado
28/02/2013 El accidente nuclear de Fukushima incrementó los casos de cáncer
Después he computado las palabras más repetidas en todos los titulares utilizando mi lematizador. Pego el principio de la lista, el número de repeticiones entre paréntesis: gobierno (210),zapatero (201),muertos (190),españa (179),eta (167),detenidos (148),pp (144),pide (126),madrid (124),españoles (120),eeuu (111),irak (101),rajoy (101),dice (100),psoe (91),atentado (88),israel (87),personas (86),policía (79),ataque (77),mueren (77),millones (76),primer (74),primera (72),caso (70),heridos (70),llega (67),acuerdo (64),francia (64),sube (64),crisis (63),deja (63),anuncia (60),país (59),presidente (59),mata (58),mayor (56),terroristas (56),rescate (55),batasuna (53),onu (52),vasco (52),apoyo (51),rey (50),investigar (49),política (49),ibarretxe (48),ue (48),acusa (47),envía (47),etarras (47),inmigrantes (47),reúne (47),reforma (46),último (46),paz (44),plan (44),tropas (44),banco (43),juez (43)… hasta 4613 palabras únicas.
Con ese resultado he generado tanto la imagen que inicia esta entrada, con el logotipo de “el Mundo”, como el retrato de Pedro J Ramírez que viene a continuación. En ambos casos el tamaño de la palabra representa una mayor repetición de la misma en los titulares. Las gráficas que señalan el uso de las palabras a lo largo de estos años agrupan las repeticiones de palabras en bloques de 30 días.
Un par de curiosidades que me he encontrado por el camino. En este periodo tan extenso de tiempo da la sensación, por la estructura html, que este periódico digital solo han cambiado tres veces de formato. Las ediciones las tienen distribuidas cada día entre “mañana, “tarde” y “noche”, siendo las de la mañana las que he recopilado… excepto el día 02/09/2007 que no hubo edición de mañana.
La elección de la imagen de Pedro J quizás parezca algo sombría, pero ya sabéis la tendencia que tengo a imágenes más abstractas. Para compensar pongo a continuación la otra candidata que quedo fuera en la elección final.
Como simpre lamento el uso de minúsculas, pero mi lematizador las utiliza por defecto y aún tengo que trastear un poco con el código para que se respete la capitalización, en el caso de ser mayoritario su uso.
Tenía la intención de comparar estas palabras con los titulares de El País, pero asombrosamente apenas tienen un año disponible en su hemeroteca :-?. También me habría gustado agruparlos por temática, siempre he pensado que hay demasiado deporte en los titulares, pero obtener esa información no es tan fácil, quizás si algún día El Mundo me echa una mano…