Dostupné korpusy

Korpusy psaného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok prvního
zveřejnění
charakteristika korpusu
SYN 2 232 mil. ANO ANO 2010 nereferenčníNápověda spojení všech synchronních psaných korpusů řady SYN
SYNSYN2013PUB 935 mil. ANO ANO 2013 korpus publicistických textů z let 2005 - 2009
SYNSYN2010 100 mil. ANO ANO 2010 žánrově vyvážený korpus, převažují texty z let 2005 - 2009
SYNSYN2009PUB 700 mil. ANO ANO 2010 korpus publicistických textů z let 1995 - 2007
SYNSYN2006PUB 300 mil. ANO ANO 2006 korpus publicistických textů z let 1989 - 2004
SYNSYN2005 100 mil. ANO ANO 2005 žánrově vyvážený korpus, převažují texty z let 2000 - 2004 
SYNSYN2000 100 mil. ANO ANO 2000 žánrově vyvážený korpus, převažují texty z let 1990 - 1999 
FSC2000 100 mil. ANO NE 2004 upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
CZESL-PLAIN 2 mil.
NE NE 2012
nereferenčníNápověda žákovský korpus češtiny nerodilých mluvčích
CZESL-SGT
960 000
ANO ANO
2014
nereferenčníNápověda žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací
KSK-DOPISY 800 000 NE NE 2006 korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
JEROME 69 mil. ANO ANO 2013 jednojazyčný srovnatelný korpus pro výzkum překladové češtiny
LINK 1,8 mil. ANO ANO 2010 nereferenčníNápověda korpus sestavený z odborných lingvistických textů
ORWELL 80 000 ANO ANO 2003 ručně označkovaný korpus Orwellova románu "1984"
SKRIPT2012
590 000
ANO ANO 2013
korpus školních písemných prací

Korpusy mluveného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
SPEECHES 215 000 ANO ANO 2015 korpus prezidentských projevů
ORAL2013 2,79 mil NE NE 2013 reprezentativní korpus neformální mluvené češtiny
ORAL2008 1 mil NE NE 2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny
ORAL2006 1 mil. NE NE 2006 korpus neformální mluvené češtiny
SCHOLA2010 790 000 NE NE 2010 korpus vyučovacích hodin
PMK 675 000 NE NE 2001 Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století
BMK 490 000 NE NE 2002 Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století

Diachronní korpusy

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
DIAKORP  1,95 mil. NE NE 2005 nereferenčníNápověda korpus diachronní složky ČNK

Cizojazyčné korpusy

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
Aranea 1 000 mil.
(každý jazyk)
ANO ANO 2014 nereferenčníNápověda srovnatelné webové korpusy pro několik evropských jazyků
DOTKO 12 mil. NE NE 2010 nereferenčníNápověda korpus dolní lužické srbštiny, převažují texty z let 1848 - 1933
HOTKO 36 mil. NE NE 2013 nereferenčníNápověda korpus horní lužické srbštiny
lEstRepublicain 120 mil. ANO ANO 2013 korpus textů francouzského deníku L'Est Républicain
deWaC 1 350 mil. ANO ANO 2013 webový korpus němčiny
frWaC 1 350 mil. ANO ANO 2013 webový korpus francouzštiny
itWaC 1 600 mil. ANO ANO 2013 webový korpus italštiny
ukWaC 1 900 mil. ANO ANO 2013 webový korpus britské angličtiny

Paralelní korpus

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
InterCorp 138 mil. ANO
(částečně)
ANO
(částečně)
2008 nereferenčníNápověda paralelní korpus vznikající v rámci projektu InterCorp