internet

WikiHist.html: La Wikipedia y todas sus revisiones a lo largo del tiempo en un gigantesco archivo de 7 terabytes

WikiHist.html

WikiHist.html es un proyecto que básicamente consiste en una conversión de la Wikipedia de formato wikitexto (el lenguaje de marcado en el que se escribe) a HTML y a la vez conservando todas las revisiones del historial de cada artículo. Para quien no lo sepa: desde que un artículo se crea por primera vez, la Wikipedia guarda cada mínimo cambio hecho por los editores de modo que consten y se puedan comprobar después todos esos cambios: quién los hizo, cuándo, qué cambió, etcétera.

De momento este megaproyecto sólo ha hecho sólo para la Wikipedia en inglés, pero podría llegar a otros idiomas si alguien lo necesita; es todo cuestión de voluntad. El resultado práctico es un gigantesco archivo de 7 TB dividido en más de 500 directorios en tres partes: (1) contenido e historial convertidos a HTML; (2) lista de fechas de creación de los artículos y (3) redirecciones. El archivo contiene los cambios desde el nacimiento de Wikipedia hasta marzo de 2019.

Con esto los investigadores que necesiten todo el material pueden descargarlo y dentro de sus posibilidades, para lo cual hace falta un buen puñado de discos y una no menos poderosa conexión sin límite de datos. Como la descarga es un poco bestial está disponible en Archive.org tanto en descarga directa como en torrents. También hay más información en la página Github del proyecto WikiHist.html.

(Vía Bob West.)

Relacionado:

# Enlace Permanente

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button