Krátké zprávy

SYN verze 4

16. září 2016 byla zveřejněna verze 4 korpusu SYN, jehož velikost po zahrnutí textů SYN2015 a dosud nezveřejněné publicistiky převážně z let 2010–2014 přesáhla 3,6 mld. slov.


InterCorp verze 9

Dne 9. 9. 2016 byla zveřejněna verze 9 paralelního korpusu InterCorp. Podrobnosti najdete na wiki ČNK.


Přednášky Alana Partingtona

Srdečně zveme na přednášky korpusového lingvisty Alana Partingtona, které se uskuteční 3. a 4. května 2016.

Abstrakty a registrační formuláře naleznete na: http://partington.eventzilla.net/

Přednášky amerického lingvisty Marka Daviese

V dubnu navštíví Prahu americký lingvista Mark Davies, odborník na design korpusů a práci s nimi, zejména analýzu synchronní i diachronní variace. Přednese dvě přednášky, jednu na půdě hlavní budovy Filozofické fakulty UK (pondělí 11. 4. 2016) a druhou v rámci interního semináře Ústavu Českého národního korpusu (úterý 12. 4. 2016). Na obě jste srdečně zváni, přičemž na obě je potřeba se předem registrovat. Více informací včetně abstraktů a registračního formuláře naleznete na http://davies.eventzilla.net/.


InterCorp verze 8

V červnu 2015 byla zveřejněna verze 8 paralelního korpusu InterCorp. Změny spočívají především ve zpřístupnění dalších textů, a to jak z jádra (celkem již 194 mil. slov), tak i z kolekcí. U řady textů z jádra byla dále opravena a doplněna metadata. Podrobnější informace najdete v historii verzí na stránkách projektu.


Gratulujeme Davidu Lukešovi

S radostí oznamujeme, že náš milý kolega David Lukeš získal Cenu prof. JUDr. Karla Engliše pro nejlepší absolventy společenskovědních oborů za vynikající studijní výsledky a mimořádně kvalitní diplomovou práci. Cenu mu předal dne 18. března 2015 rektor Univerzity Karlovy Tomáš Zima. Gratulujeme!
 David Lukeš 


InterCorp verze 7

Koncem roku 2014 byla zveřejněna verze 7 paralelního korpusu InterCorp. Změny spočívají především ve zpřístupnění dalších textů, a to jak z jádra (celkem již 173 mil. slov), tak i z kolekcí. V kolekcích přibyl velký balík filmových titulků se serveru OpenSubtitles, takže celkový rozsah kolekcí dosáhl 1217 mil. slov a celkový počet cizích jazyků 38. Podrobnější informace najdete v historii verzí na stránkách projektu.


Ukončení provozu starších rozhraní

Od konce roku 2013 je možné v ČNK využívat několik různých rozhraní pro práci s konkordancemi: nejnovější KonText, dále NoSketch Engine, jednoúčelový Park a jednoduché, ale zastaralé Bonito. Zavedení každého z nich mělo kdysi své opodstatnění, jejich udržování v provozu však vyžaduje z naší strany nemalou režii. Už delší dobu proto směřujeme k zavedení jediného rozhraní, které by v sobě soustředilo práci s konkordancemi ve všech druzích korpusů, včetně mluvených a paralelních. Toto úsilí bylo v letošním roce soustředěno na vylepšování rozhraní KonText tak, aby jeho funkcionalita v maximální možné míře obsáhla funkcionalitu zbývajících rozhraní a usnadnila tak přechod uživatelů na KonText. Současně s tím se blíží ukončení provozu rozhraní Bonito, Park a NoSketch Engine v ČNK, ke kterému dojde s největší pravděpodobností na konci března 2015.

Chtěli bychom tedy touto cestou vyzvat všechny dosavadní uživatele starších rozhraní k přechodu na KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se nám ozvat a domluvit podrobnosti.


Wolfgang Teubert v Praze

Zveme Vás na přednášky Wolfganga Teuberta, které se konají v pondělí 24. listopadu 2014 na Filozofické fakultě UK (místnost č. 104) a v úterý 25. listopadu 2014 v Ústavu Českého národního korpusu (Panská 7). Abstrakty přednášek jsou k dispozici zde (PDF).


Geoffrey Leech v Praze

Zveme Vás na přednášku Geoffreye Leeche, která se koná v pondělí 31. března 2014 na Filozofické fakultě Univerzity Karlovy.


Aktualizace korpusu SYN

Koncem ledna 2014 byl aktualizován korpus SYN, který nyní ve verzi 3 obsahuje více než 2 mld. slov.


Nové publikace

Na konci prosince 2013 vyšly v řadě Studie z korpusové lingvistiky dvě nové publikace: Kvantitativní analýza kontextu a Odraz jazykových změn v synchronních korpusech.


Nové korpusy

Od konce prosince 2013 jsou k dispozici tyto nové korpusy: korpus neformální mluvené češtiny ORAL2013; korpus psané publicistiky SYN2013PUB; srovnatelný korpus JEROME sestavený pro zkoumání překladové češtiny v porovnání s češtinou nepřekladovou a korpus lEstRepublicain složený ze 3 ročníků francouzského regionálního deníku L'Est Republicain.


Pozvánka na přednášky Dr Andrewa Hardieho

Ústav Českého národního korpusu srdečně zve všechny zájemce na dvě přednášky korpusového lingvisty Dr Andrewa Hardieho z University of Lancaster.

27. 5. 2013, 17:00, Zelená studovna Knihovny FF UK (Jana Palacha 2)

Annotation and analysis: an overview of tools and techniques

The corpus research infrastructure at Lancaster’s UCREL research centre is based around the use of a number of standard tools for (a) automated annotation at various levels of language, for instance p[art-of-speech tagging and semantic tagging and (b) indexing, searching and analysing the resulting data. In this presentation, I will provide an introductory overview of the nature of these tools and how we make them work together. The presentation will conclude with a live (internet connection permitting!) demonstration of the analytic possibilities afforded by the CQPweb software when it operates across fully-annotated corpus data – in particular looking at different approaches to collocational phenomena.

verze pro tisk

28. 5. 2013, 13:00, ÚČNK (Národní 37, palác Platýz)

Applying cluster analysis to the problem of text-type classification

(co-author Ghada Mohamed)

This presentation illustrates (a) a new approach to the bottom-up analysis of text types based on cluster analysis, and (b) its cross-linguistic applicability, exemplified through analyses of English and Arabic corpora. Although there exist many different approaches to the classification of texts into categories, most such work can be considered top-down in orientation. Such approaches must, therefore, be complemented by bottom-up approaches where categorisation is based on features internal to the language of the texts; the most widely known approach of this kind is Biber’s (1988) Multi-Dimensional(MD) analysis of English, extended to cross-linguistic text typology by Biber (1995). Biber’s methodology is based on a multivariate statistical technique, factor analysis; this presentation will explore an alternative methodology for establishing text-type categories based on cluster analysis. Work using the British National Corpus and the Leeds Corpus of Contemporary Arabic shows cluster analysis to be a powerful tool for structuring frequency data from automated retrieval lexico-grammatical features, if its output is interpreted with care.

verze pro tisk


Aktualizace dat korpusu InterCorp, vylepšená verze rozhraní a webové cizojazyčné korpusy

Počátkem dubna 2013 byla zveřejněna verze 6 paralelního korpusu InterCorp. Změny spočívají především ve zpřístupnění dalších textů, a to jak z jádra (celkem již 138 mil. slov), tak i z kolekcí. V kolekcích přibyl velký balík EuroParl (jednání Evropského Parlamentu), takže celkový rozsah kolekcí včetně již dříve zveřejněných balíků Syndicate, PressEurop a Acquis Communautaire (první dva zmíněné byly navíc rozšířeny o novější texty) činí 728 mil. slov. Dále přibyly celkem čtyři jazyky (arabština, katalánština, hindština a ukrajinština), celkový počet cizích jazyků tedy už dosáhl 31. Historii verzí InterCorpu s podrobnějšími informacemi najdete zde.

Se zveřejněním dalších dat korpusu InterCorp je spojeno spuštění nové verze webového rozhraní NoSketch Engine na adrese http://korpus.cz/corpora/. Rozhraní prošlo řadou drobných úprav, především však umožňuje plnohodnotnou práci s paralelními korpusy včetně počítání statistik atd. Protože už tedy není důvod používat zvláštní přístup k jednojazyčným verzím paralelních korpusů na http://korpus.cz/corpora/intercorp/, byla tato adresa přesměrována na standardní webový přístup.

V této souvislosti bychom chtěli upozornit, že NoSketch Engine nabízí řadu možností a funkcí, které v původním Bonitu chybějí, a stává se tak rozhraním, které by ho v ČNK mělo v dlouhodobější perspektivě nahradit. V Bonitu nejsou z technických důvodů přístupné některé cizojazyčné korpusy, nelze pomocí něj vyhledávat v paralelních korpusech, a nebude v něm možná ani práce se zvukem v připravovaném novém mluveném korpusu. Protože tedy používání Bonita začíná ztrácet opodstatnění, chtěli bychom uživatele vyzvat, aby začali v co nejhojnější míře používat nové rozhraní na standardní adrese http://korpus.cz/corpora/, které toto všechno umožňuje.

Kromě toho přibyly do nabídky hostovaných korpusů jednojazyčné WaCy, webové korpusy pro 4 velké evropské jazyky: němčinu (deWaC), francouzštinu (frWaC), italštinu (itWaC) a britskou angličtinu z domény .uk (ukWaC). Jejich rozsah se pohybuje mezi 1,35 až 1,9 miliardami slov. Podrobnosti o těchto korpusech najdete na stránkách projektu.


Korpus HOTKO

Počátkem března 2013 se nabídka dostupných korpusů rozrostla o korpus horní lužické srbštiny HOTKO. Stejně jako v případě již dříve zveřejněného korpusu dolní lužické srbštiny DOTKO je i hostování korpusu HOTKO výsledkem spolupráce s Lužickosrbským institutem v Budyšíně.


Paralelní korpus InterCorp

Tým projektu Český národní korpus zve všechny zájemce na jednodenní workshop:

Paralelní korpus InterCorp:
seznamte se s možnostmi kontrastivního korpusového výzkumu

který se uskuteční na FF UK v Praze
v pátek 6. září 2013

Workshop bude zaměřen na seznámení účastníků s nástroji užívanými při práci s paralelním korpusem InterCorp pomocí zcela nového rozhraní a na prezentaci případových studií.

Pro registraci použijte tento formulář.

Informační letáček je k dispozici zde ve formátu PDF.


Vylepšená verze webového rozhraní NoSketch Engine

V lednu 2013 byla spuštěna dále vylepšená verze open-source webového rozhraní pro vyhledávání v korpusech NoSketch Engine na adresách http://www.korpus.cz/corpora/ a http://www.korpus.cz/corpora/intercorp/. Oproti předchozí verzi přibyla řada drobných vylepšení (např. scrollbary v seznamech při výběru subkorpusů) a u vybraných korpusů možnost interaktivního výběru morfologických kategorií (nová volba "Tag" jako "Typ dotazu").


Program KWords

Na začátku ledna 2013 byla oficiálně zpřístupněna první aplikace umožňující analýzu textu pomocí klíčových slov v češtině - KWords. Program, který vznikl v rámci spolupráce s Brownovou univerzitou, je schopen analyzovat vložený text a zjistit, která slova jsou v něm prominentně užívána (ve srovnání s neutrálním pozadím korpusů současné i totalitní češtiny) a jaké jsou jejich vzájemné vztahy. Výsledky získané pomocí tohoto nástroje mohou sloužit jako základ pro další lingvistickou, literární, historickou nebo sociologickou analýzu textu.


Program Morfio

Od prosince 2012 je k dispozici program Morfio, který slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Pracuje s reprezentativními synchronními korpusy psané češtiny SYN2010 a SYN2005 a jeho výstupem jsou všechny dvojice, příp. trojice slov, které odpovídají zadanému slovtvornému modelu. Program Morfio je pro všechny zájemce dostupný zde.


Vylepšená verze webového rozhraní NoSketch Engine

Začátkem října 2012 byla spuštěna vylepšená verze open-source webového rozhraní pro vyhledávání v korpusech NoSketch Engine na adresách http://www.korpus.cz/corpora/ a http://www.korpus.cz/corpora/intercorp/. Oproti původní verzi přibyla mj. možnost změny hesla, hierarchické uspořádání korpusů s podrobnějšími informacemi o nich, uvádění ARF a relativizované frekvence vyhledaného výrazu nebo možnost zadat při vytváření subkorpusu vlastní obecnou podmínku.


Nominace na funkci ředitele ÚČNK

Dne 27. listopadu 2012 ve 13 hodin se bude konat nominace na funkci ředitele Ústavu Českého národního korpusu.


Aktualizace dat paralelního korpusu InterCorp

V červnu 2012 byl aktualizován paralelní korpus InterCorp. Aktualizace se týká jak paralelních dat přístupných přes Park, tak i jejich jednojazyčných částí - obě možnosti přístupu ke korpusu najdete zde. Změny spočívají zejména ve zpřístupnění dalších textů, a to jak ručně zarovnaných z tzv. jádra (celkem 91,5 mil. slov), tak i velkého balíku evropské legislativy Acquis Communautaire (společně s již zveřejněnými publicistickými texty celkem 451 mil. slov). Dále přibylo celkem pět jazyků (běloruština, estonština, makedonština, maltština a řečtina) a mezi lemmatizovanými a morfologicky označkovanými texty estonština, portugalština a slovinština.

Spolu se změnami v datech se ve vyhledávacím rozhraní Park objevila možnost výběru textů na základě bibliografických informací spolu s možností pracovat s ručně zpracovanými texty z jádra odděleně od ostatních, automaticky zarovnaných. Dále přibyla také možnost vybrat z vyhledané konkordance náhodný vzorek. Historii verzí korpusu InterCorp s podrobnějšími informacemi najdete zde.


NoSketch Engine

Dne 14. června 2012 bylo rozhraní Sketch Engine na adresách http://www.korpus.cz/corpora/ a http://www.korpus.cz/corpora/intercorp/ z licenčních důvodů nahrazeno jeho open-source variantou nazývanou NoSketch Engine. Běžný způsob práce s korpusy (vyhledávání, statistiky apod.) se v obou rozhraních nijak neliší, podstatným rozdílem je pouze absence Word Sketches a s nimi souvisejících funkcí v NoSketch Engine. K těmto funkcím však měl přístup jen omezený okruh uživatelů, pro běžné uživatele se tedy přechodem na nové rozhraní prakticky nic nezměnilo.

V případě zájmu o zpřístupnění Word Sketches si uživatelé, kteří nejsou studenty ani zaměstnanci Univerzity Karlovy, musejí koupit licenci přímo od Lexical Computing Ltd. Licence standardně opravňuje k přístupu ke korpusům na http://the.sketchengine.co.uk/, v žádosti o licenci je proto potřeba uvést, že se jedná také o přístup k Word Sketches v ČNK.


Přednášky Paula Raysona

Ústav Českého národního korpusu FF UK Vás srdečně zve na přednášky Paula Raysona (Lancaster University), které se budou konat
v pondělí 11. června 2012 v 16 hodin
a
v úterý 12. června 2012 ve 13 hodin.

Více zde.

Přednáška Tonyho McEneryho

Ústav Českého národního korpusu FF UK Vás srdečně zve na přednášku Tonyho McEneryho (Lancaster University) na téma: Corpus searching technologies and corpus linguistics - a history and prospectus, která se bude konat 19. dubna v 17 hodin v hlavní budově Filozofické fakulty, náměstí Jana Palacha 2, v posluchárna č. 104.


Staňte se našimi doktorandy!

Máte dokončené magisterské studium lingvistického zaměření? Přemýšlíte, kam dál? Staňte se našimi doktorandy! Perspektivní obor Korpusová lingvistika nabízí možnost zajímavého výzkumu založeného na autentických datech za pomoci moderních metod a vedení zkušených odborníků. Více informací najdete zde:

http://www.ff.cuni.cz/FF-8586-version1-MATEMATICKA_LINGVISTIKA_P_REA_III.pdf

Přihlášky do doktorandského studia je možné podávat do 30. dubna 2012.


Sketch Engine

Dne 14. prosince 2011 byla na adresách http://www.korpus.cz/corpora/ a http://www.korpus.cz/corpora/intercorp/ spuštěna nová verze Sketch Engine, webového rozhraní pro vyhledávání v korpusech. Toto nové rozhraní je výrazně vylepšenou verzí původního webového Bonita, které tak bylo po 5 letech provozu plně nahrazeno novějším rozhraním. Stále však platí, že přístup k Word Sketches má pouze omezený okruh uživatelů, důvodem jsou vysoké finanční požadavky na licence ze strany Lexical Computing Ltd.


Korpusový průzkum variant

Od konce září 2011 je k dispozici program SyD, který je určen pro všestranný průzkum variant jak v současném jazyce - synchronní část, tak v průběhu jeho vývoje - diachronní část. K analýze využívá data mluvených a psaných korpusů projektu Českého národního korpusu. Stačí zadat dvě varianty (nebo víc) jednoho jevu, které si vzájemně konkurují (např. ačkoli × ačkoliv, × již, mimoto × mimo to apod.). SyD je dostupný všem zájemcům bez nutnosti registrace.


Sborníky z konference Korpusová lingvistika Praha 2011

V Nakladatelství Lidové noviny vyšly sborníky z konference Korpusová lingvistika Praha 2011 konané ve dnech 22. - 24. září 2011. Příspěvky jsou rozděleny do tří svazků:
1 InterCorp
2 Výzkum a výstavba korpusů
3 Gramatika a značkování korpusů.


Aktualizace dat paralelního korpusu InterCorp

V září 2011 byl aktualizován paralelní korpus InterCorp. Aktualizace se týká jak paralelních dat přístupných přes Park, tak i jejich jednojazyčných částí - obě možnosti přístupu ke korpusu najdete zde. Změny spočívají především ve zpřístupnění dalších textů, zejména publicistických textů z Project Syndicate a Presseurop, což znamená nárůst na celkový rozsah přibližně 92 milionů slov. Historii verzí korpusu InterCorp s podrobnějšími informacemi najdete zde.


Přednášky Michaela Rundella

Dovolujeme si Vás pozvat na přednášky Michaela Rundella:

Další informace o přednáškách naleznete zde (PDF).

Prezentace použité na přednáškách jsou s laskavým svolením autora k dispozici ke stažení (ve formátu PDF):


Přednášky profesora Jean-Pierre Colsona

Dovolujeme si Vás pozvat na přednášky Jean-Pierre Colsona (Université catholique de Louvain, Belgique):

Další informace o přednáškách naleznete zde (PDF).


Aktualizace dat paralelního korpusu InterCorp

V únoru 2011 byl aktualizován paralelní korpus InterCorp. Aktualizace se týká jak paralelních dat přístupných přes Park, tak i jejich jednojazyčných částí - obě možnosti přístupu ke korpusu najdete zde. Změny spočívají kromě interního přechodu na oddělené zarovnání (stand-off alignment) především ve zpřístupnění dalších textů, což znamená nárůst na celkový rozsah přibližně 72 milionů slov. Mezi jazyky přibyla norština, nově jsou lemmatizovány a morfologicky označkovány litevština, norština a slovenština. Ve vyhledávacím rozhraní přibyla možnost přechodu na vybranou stránku a jednoúrovňový filtr výsledků dotazu.


Rozšíření korpusu DIAKORP

Začátkem roku 2011 byl korpus DIAKORP rozšířen na 1,95 milionu slovních tvarů.


A Frequency Dictionary of Czech: Core Vocabulary for Learners

Na začátku ledna 2011 vyšel v řadě frekvenčních slovníků nakladatelství Routledge slovník A Frequency Dictionary of Czech: Core Vocabulary for Learners. Podrobnosti najdete zde...


Slovník komunistické totality

Dne 22. 12. 2010 vyšel Slovník komunistické totality jako třetí svazek řady Korpusová lexikografie. Více informací naleznete zde...


Nové korpusy

Dne 20. prosince 2010 se nabídka dostupných korpusů rozrostla o následujících pět korpusů:


Perfektum v současné češtině

20. 9. 2010 vyšla v řadě Studie z korpusové lingvistiky publikace Perfektum v současné češtině. Autorkou knihy je Mira Načeva-Marvanová. Více zde...


Pozvánka na přednášky

Dovolujeme si Vás pozvat na přednášky, které přednesou polští kolegové:

6. 9. 2010 ve 14 hodin
Adam Przepiórkowski (Institute of Computer Science, Polish Academy of Sciences Warsaw)
National Corpus of Polish

7. 9. 2010 ve 14 hodin
Marek Łaziński (University of Warsaw)
Words of the day project

Obě přednášky se budou konat v pracovně Ústavu Českého národního korpusu (Národní 37, Praha 1).
Přednášky budou proneseny anglicky.


Korpus SYN2009PUB

Dne 7. května 2010 byl zveřejněn korpus SYN2009PUB. Jedná se o dosud největší korpus české publicistiky o velikosti 700 milionů textových slov, který v mnoha ohledech navazuje na svého předchůdce, korpus SYN2006PUB.


Přednáška Petera Grzybka

Ústav Českého národního korpusu zve na přednášku předního odborníka v oblasti statistického popisu jazyka, slavisty prof. Petera Grzybka (Univerzita v Štýrském Hradci) na téma:

A Revision of the Sentence Length. Word Length Relation: Intra-textual and inter-textual perspectives,

která se uskuteční 3. května od 18.00 (hlavní budova FF UK, m. č. 104). Všichni zájemci jsou srdečně zváni.


Mluvnice současné češtiny

8. dubna vyšla Mluvnice současné češtiny. Jedná se o kolektivní dílo autorů z FF UK a MFF UK pod vedením Václava Cvrčka. Další informace najdete v sekci naše publikace. Rozhovor s Václavem Cvrčkem na stanici Vltava si můžete poslechnout zde


Omezení přístupu k WordSketches

S politováním oznamujeme, že jsme byli nuceni od prosince 2009 z licenčních důvodů zrušit většině uživatelů přístup k WordSketches na adrese http://www.korpus.cz/corpora/. WordSketches mohou nadále používat pouze naši interní zaměstnanci a studenti. Důvodem jsou vysoké finanční požadavky na licenci, která by umožňovala poskytovat WordSketches jako dosud, tj. neomezenému počtu externích uživatelů.


Nominace na funkci ředitele ÚČNK

Dne 26. ledna 2010 v 15 hodin se bude konat nominace na funkci ředitele Ústavu Českého národního korpusu.


Nový přístup k paralelnímu korpusu InterCorp

Dne 16. října 2009 byl spuštěn veřejný provoz nového rozhraní pro vyhledávání v paralelních korpusech vytvořených v rámci projektu InterCorp. Na původní adrese nyní najdete jednojazyčné verze všech paralelních korpusů zpřístupněné pomocí webového Bonita, které umožňuje používání standardních nástrojů (filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.) i na korpusy jednotlivých jazyků. Zároveň došlo k dalšímu nárůstu zpřístupněných dat, nově je k dispozici také rozsáhlý výběr publicistických článků z projektu Syndicate v pěti jazycích (en, es, fr, de, ru) automaticky zarovnaných s češtinou. Celková velikost korpusu InterCorp se tak již blíží k 50 milionům slov.


On-line registrace

Od 12. června 2009 je možné pro získání plného přístupu ke korpusům ÚČNK použít elektronický formulář.


Aktualizace dat paralelního korpusu InterCorp

Dne 29. dubna 2009 byl aktualizován paralelní korpus InterCorp. Změny spočívají především ve zpřístupnění dalších textů, což znamená nárůst na přibližně 31 milionů slov. Vyhledávací rozhraní také nyní zobrazuje přesnou velikost každého vybraného subkorpusu. Další významnou změnou je možnost využívat automatické lemmatizace a morfologického značkování nejenom pro češtinu, ale také pro dalších 10 jazyků (bg, de, en, es, fr, hu, it, nl, pl, ru).


Nové webové stránky

Dne 24. dubna 2009 byly spuštěny nové webové stránky ÚČNK, kromě nové grafické podoby jsou změny hlavně technického rázu.


Náhodné vzorky

V manuálu korpusového manažeru Bonito byla zveřejněna kapitola, zabývající se určením spolehlivosti měření metodou náhodných vzorků. Uvedené postupy jsou vhodné v případě, že výsledek vyhledávání v Bonitu obsahuje velké množství výskytů, které není možné zpracovat všechny a je tedy potřeba přistoupit k měření na náhodných vzorcích. K textu je přizena i kalkulačka, která umožňuje výpočet spolehlivosti získaných výsledků.


Korpus ORAL2008

Dne 5. prosince 2008 se nabídka dostupných korpusů rozrostla o korpus mluvené češtiny ORAL2008. Korpus obsahuje přepisy výhradně neformálních situací, jeho velikost je 1 milion slov. Na rozdíl od předchozího mluveného korpusu ORAL2006 je však plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věk, vzdělání a oblast pobytu v dětství) tak, že hodnoty každé z nich jsou zastoupeny téměř stejným počtem slov.


Paralelní korpus InterCorp

Od listopadu 2008 je součástí Českého národního korpusu paralelní korpus InterCorp budovaný v rámci stejnojmenného projektu. Tento korpus je přístupný všem registrovaným uživatelům Českého národního korpusu přes vyhledávací rozhraní na adrese: http://www.korpus.cz/corpora/intercorp/.


Abecední a retrográdní slovníky

Od listopadu 2008 jsou na stránkách ÚČNK k dispozici Abecední a retrográdní slovníky lemmat a tvarů.


Omezení provozu...

Od čtvrtka 27. listopadu do pátku 28. listopadu 2008 bude z technických důvodů omezen provoz na našem hlavním serveru. V tomto období nebudeme schopni poskytnout přístup k našim korpusům ani webovým stránkám. Rádi bychom Vás proto požádali, abyste v těchto dnech nepracovali s korpusovým manažerem Bonito.
Děkujeme za pochopení.


Konference projektu InterCorp

Ve dnech  17.-19. září 2009 pořádá Ústav Českého národního korpusu v hlavní budově Filozofické fakulty UK (Praha 1, nám. J. Palacha 2) konferenci založenou na datech projektu InterCorp. Příspěvky, založené na česko-jinojazyčných korpusech v tomto projektu, budou primárně lingvistické povahy, a budou  se zabývat nejrůznějšími aspekty jazykového srovnání češtiny a jednoho nebo více ze zapojené dvacítky jazyků, většinou evropských. Předpokládá se jen omezená účast, především zástupců a spolupracovníků InterCorpu. Předběžné přihlášky (názvy příspěvků, do 20 minut) se přijímají do konce prosince 2008, abstrakty v rozsahu 300-400 slov do konce března. Po posouzení programovou komisí budou účastníci vyrozuměni o případném přijetí do konce května.  Korespondence na adrese:
Interkonference

František Čermák


Britský národní korpus

Od dubna 2008 přibyla pro zájemce z řad studentů a zaměstnanců Univerzity Karlovy v Praze možnost přístupu k Britskému národnímu korpusu (BNC). Velice podrobné informace o tomto korpusu včetně např. popisu použitého tagsetu můžete najít na domovských stránkách BNC. K získání přístupu k BNC přes Bonito prostřednictvím ÚČNK je třeba vyplnit standardní Prohlášení uživatele korpusů ÚČNK, ze kterého bude patrná vazba na UK. Pokud ho již vyplněné máte, stačí poslatjenom e-mailovou žádost o rozšíření stávající nabídky korpusů o BNC na adresu:
Lucie Nováková


Statistiky 2006-2007

Na našich stránkách uveřejňujeme přehled využívání korpusů. Statistiky uvádějí počty dotazů zadaných v korpusovém manažeru Bonito v období od 9. 5. 2006 do 31. 12. 2007.


Starší krátké zprávy...