Delpher open krantenarchief

Dit archief bevat in totaal 22 zip-bestanden:

  • 1 zip-bestand met 17e eeuwse kranten, 1618 t/m 1699.
  • 10 zip-bestanden met 18e eeuwse kranten, 1700 t/m 1799, opgedeeld per 10 jaar.
  • 11 zip-bestanden met 19e eeuwse kranten, 1800 t/m 1876, opgedeeld per 10 jaar (1800-1849) of per 5 jaar (1850-1876).

Onder Inhoud en structuur zip-bestand leest u hoe elk van deze 22 zip-bestanden opgebouwd.

Precies weten welke krantentitels, -edities , publicatiedatums en identifiers het Delpher open krantenarchief bevat? Download dan de hele titellijst (zip, 3MB. Uitgepakt 36MB, tsv = tab seperated value)

Om de omvang van ons krantenarchief behapbaar te houden bevat het geen:

  • Scans van krantenpagina’s (JP2-bestanden)
  • Krantenafleveringen in PDF-formaat

Deze bestanden kunt u desgewenst via de URLs in de metadata (didl.xml) zelf downloaden.

De dekking van het archief in de tijd is niet volledig, d.w.z.: er zijn jaren, maanden en/of dagen waarvan geen krantenaflevering in ons archief beschikbaar zijn. Dit kan komen doordat

  • op die data nooit een krant werd uitgegeven, of
  • er op die data wel kranten zijn uitgegeven, maar die zijn nog niet gedigitaliseerd
  • er voor die data al wel kranten gedigitaliseerd zijn, maar die zijn (nog) niet in Delpher opgenomen.

De omvang van de bestanden in ons krantenarchief varieert van 0,4 t/m 14 GB. Als u nog niet bekend bent met de inhoud en structuur van de zip-bestanden, raden wij u aan om eerst een klein proefbestand van 5 krantenafleveringen te downloaden.

Daarmee kunt u de opbouw van de dataset verkennen. Extra uitleg leest u hier. Als u met de data uit de voeten kunt, kunt u vervolgens volledige zip-bestanden downloaden.

Gezien de grootte van de bestanden in ons krantenarchief (0,4 - 14GB) kunt u het beste een programma gebruiken dat speciaal is ontworpen om ook grote zips correct te openen en uit te pakken, zoals bijvoorbeeld 7-zip.

N.B. De ingebouwde afhandeling van zip-bestanden in Microsoft Windows (bv. Rechtermuisknop -> Extract all) is niet ontworpen om bestanden van dergelijke omvang uit te pakken en kan daardoor traagheid, foutenmeldingen of zelfs crashes van uw computer veroorzaken.

Elk van de 22 Kranten zip-bestanden is op dezelfde manier opgebouwd. Als voorbeeld bekijken we de zip van de kranten uit de 17e eeuw (1618-1699). Die kunt u hier direct downloaden (1 GB).

Als u dit bestand uitgepakt heeft, ziet u onderstaande bestandsstructuur

De folders en bestanden onder “Kranten_pd_16xx.zip” zijn als volgt opgebouwd:

Jaartallen (1631 uitgeklapt)
 
  • Maandnummers (06 = juni, uitgeklapt)
   
   
  • Dagnummers (07, uitgeklapt)
 
     
  • Kranteneditie 7 juni 1631 o.b.v. unieke identifier, DDD_ddd_0105555138_mpeg21. Welke krantentitel hoort hierbij? Zie de uitleg hieronder.
    • Metadata in de vorm van een MPEG21-DIDL-bestand, per kranteneditie (didl.xml)
    • Tekst in de vorm van een OCR-bestand, per krantenartikel (bestandsnaam eindigt op _articletext.xml).
      Deze editie bevat dus 5 artikelen.
    • Woordcoördinaten in de vorm van een ALTO-bestand, per krantenpagina (bestandsnaam eindigt op _alto.xml).
      Deze editie bevat dus 2 pagina’s.
  • Kranteneditie van 7 juni 1631 o.b.v. unieke identifier, KRANTEN_MMK_B08_ 000213586_mpeg21.
    • Zie de drie bullets hierboven.


Daarnaast bevat deze zip nog 3 bestanden:
  • index_kranten_pd_16xx.tsv: Hierin kunt u opzoeken welke unieke identifier met welke kranteneditie en datum correspondeert. Bovengenoemde DDD_ddd_0105555138_mpeg21 correspondeert dus met de Courante uyt Italien, Duytslandt, &c. van 07-06-1631 (tsv = tab seperated value).
  • LEESMIJ_kranten_pd_16xx.txt: uitleg over de data in het Nederlands
  • README_newspapers_pd_16xx.txt: uitleg over de data in het Engels

De dataset als geheel is vrijgegeven onder een CC-BY 4.0-licentie. Bij hergebruik van de gehele dataset, of substantiële delen daarvan, dient u dus aan licentie- en naamsvermelding te doen. Ook stellen we bronvermelding erg op prijs. Dat doet u bij voorkeur als volgt:

Delpher open krantenarchief (1.0). Creative Commons Naamsvermelding 4.0, Den Haag, 2017.

N.B: De teksten (OCR, ALTO) van losse krantenafleveringen vallen in het publieke domein, er rusten dus geen rechten meer op. Hoewel niet verplicht, stelt Delpher naam- en bronvermelding wel op prijs.

Het hele Delpher open krantenarchief heeft een omvang van 111 GB (uitgepakt 622 GB), het is in 22 aparte zip-bestanden opgedeeld.

Contact

Hartelijk dank voor uw vraag.

Binnen een werkdag ontvangt u een reactie op uw e-mailadres. Voor de behandeling van klachten houden wij 5 werkdagen aan.

Wat vindt u van Delpher? Heeft u ideeën of suggesties? Geef uw mening in de enquête.

Enquête starten