English version below
Český národní korpus | Aktuality
Prosinec 2014

InterCorp verze 7

Horkou novinkou je zveřejnění korpusu InterCorp verze 7, která oproti verzi 6 přináší především tyto hlavní změny:

  • přibyl velký balík textů: filmové titulky ze serveru OpenSubtitles.org;
  • počet cizích jazyků se zvýšil na 38 (díky OpenSubtitles přibyla albánština, hebrejština, islandština, japonština, malajština, turečtina a vietnamština);
  • celkový rozsah cizojazyčných textů dosáhl 173 mil. slov v jádře a 1,2 mld. slov v kolekcích.

Obě verze zůstávají přístupné přes rozhraní KonText. Podrobnější informace najdete na stránkách projektu InterCorp.

Korpusy řady Aranea

Mezi nově hostovanými korpusy bychom chtěli upozornit především na řadu korpusů Aranea. Jde o rozsáhlé (více než miliardové) srovnatelné webové korpusy vytvořené Vladimírem Benkem (JÚĽŠ SAV) pro řadu jazyků podle téže metodologie. Korpusy Aranea jsou neustále vylepšovány a rozšiřovány, v současné době jsou v ČNK k dispozici pro angličtinu, francouzštinu, němčinu, nizozemštinu, polštinu, ruštinu a slovenštinu; v blízké budoucnosti se můžete těšit také na češtinu, finštinu, italštinu, španělštinu a maďarštinu.

Referenčnost korpusů

Dosavadní praxe v ČNK připouštěla zveřejňovat vedle neměnných referenčních korpusů (např. SYN2010 nebo ORAL2013) také průběžně vylepšované korpusy nereferenční (např. SYN nebo InterCorp). Jejich aktualizace byla doposud spojená se znepřístupněním starší verze, ačkoli bylo na požádání možné přístup k ní zachovat.

S korpusem InterCorp verze 7 přichází změna této dosavadní politiky v tom, že všechny nově zveřejněné korpusy budou výhradně referenční a součástí jejich názvu bude také konkrétní verze (např. InterCorp v7 – Czech). Starší verze všech korpusů (tedy včetně InterCorpu verze 6) zůstanou uživatelům standardně přístupné.

Korpusové rozhraní KonText

Již více než rok je na portálu ČNK k dispozici moderní rozhraní pro práci s korpusy nazvané KonText. Z nových funkcí implementovaných v poslední době bychom chtěli upozornit na tyto:

  • snadno přístupná historie dotazů (šipka dolů v dotazovacím řádku);
  • možnost ručního výběru konkordančních řádků a manipulace s nimi;
  • interaktivní výběr subkorpusů umožňující průběžně sledovat, které texty byly zadanou podmínkou vybrány;
  • zobrazování citačních informací ke konkrétnímu korpusu.

Pokud vám stále některá důležitá funkce chybí, můžete se na vývojáře KonTextu se svými požadavky obracet prostřednictvím naší Poradny (viz níže).

Ukončení provozu starších rozhraní

V současné době je možné v ČNK využívat několik různých rozhraní pro práci s konkordancemi: nejnovější KonText, dále NoSketch Engine, jednoúčelový Park a jednoduché, ale zastaralé Bonito. Zavedení každého z nich mělo kdysi své opodstatnění, jejich udržování v provozu však vyžaduje z naší strany nemalou režii. Už delší dobu proto směřujeme k provozování pouze jediného rozhraní - KonText, které umožňuje práci ve všech druzích korpusů, včetně mluvených a paralelních. Vzhledem k tomu, že KonText je nyní schopen plně zastoupit starší rozhraní, chtěli bychom anoncovat ukončení provozu rozhraní Bonito, Park a NoSketch Engine, k němuž dojde s největší pravděpodobností na konci března 2015.

Všechny dosavadní uživatele starších rozhraní proto žádáme o přechod na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také proto, že toto rozhraní je neustále vyvíjeno, mj. také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod.

Fórum uživatelů a poradna

Při vylepšování služeb poskytovaných uživatelům se nelze obejít bez zpětné vazby. Proto jsme se vedle vědecké rady rozhodli ustavit Fórum uživatelů jako centrum aktivní podpory, které může využívat každý registrovaný uživatel ČNK.

Fórum přináší možnost vést diskuse a pokládat dotazy v rámci Poradny (např. jak formulovat složitý dotaz, jak si vytvořit subkorpus, jak vyhodnotit výsledky atp.), na něž se vám pokusí odpovědět někdo z týmu pracovníků ČNK. Dále pak Fórum umožňuje hlásit chyby v našich aplikacích a navrhovat různá jejich vylepšení (viz odkaz Nahlásit chybu v zápatí jednotlivých aplikací). Vedle toho stále zůstává možnost standardních e-mailových, telefonických a osobních konzultací, pro větší počet zájemců nabízíme po dohodě možnost uspořádání semináře či zaškolení.

Repozitář korpusových publikací

K posílení komunity zájemců o korpusový výzkum slouží nově ustavený Repozitář vědeckých publikací založených na ČNK, který je přístupný přes horní portálovou lištu pod názvem Biblio. Do repozitáře může každý registrovaný uživatel zadat bibliografické údaje ke svým publikacím, které vznikly na základě zdrojů ČNK; součástí záznamu může navíc být i přiložený soubor s textem, který bude veřejně přístupný všem návštěvníkům portálu.

Repozitář napomůže mj. k vytváření bibliografie české korpusové lingvistiky, zjednoduší sdílení vědeckých výsledků (ve smyslu open-acces přístupu) a v neposlední řadě pomůže projektu ČNK při obhajování své činnosti. Budeme rádi, když nám pomůžete repozitář rozvíjet a udržovat aktuální; jeho rozsah k dnešnímu dni překročil 600 záznamů.

Internetová příručka ČNK

Jako doplněk k aplikacím pro práci s korpusy slouží od letošního roku i Internetová příručka ČNK, alias korpusová wiki. Je určena nejen studentům a nováčkům ve světě korpusů, pro které přináší sekce Manuál pro práci s korpusem v 7 lekcích a slovníček Základních pojmů z korpusové lingvistiky, ale také pokročilým badatelům. Těm nabízí jednak popis dostupných korpusů, přehledný seznam Funkcí rozhraní KonText, ale také různé užitečné seznamy, např. popis tagsetu užívaného v ČNK, seznam zkratek užívaných pro anotaci typu textu či žánru atp.

Jako každý projekt formátu wikipedie má i naše příručka povahu neustále doplňované a zpřesňované báze znalostí a informací; zdaleka ne vše je tedy ve stavu, s kterým bychom mohli být spokojeni. Pokud byste měli nápady na nějaká zajímavá doplnění, můžete nám to napsat do poradny.

Czech National Corpus | Newsletter
December 2014

InterCorp release 7

InterCorp release 7 has just been made publicly available; here are the major improvements over release 6:

  • a new large collection of texts is available: film subtitles from OpenSubtitles.org;
  • the number of languages has increased to 38 (thanks to OpenSubtitles, we now have Albanian, Hebrew, Icelandic, Japanese, Malay, Turkish, and Vietnamese);
  • the total size of foreign language texts has reached 173 million tokens in the Core (mostly fiction) and 1.2 billion tokens in Collections.

Both releases are available via the KonText interface. For more information, see the InterCorp project website.

Aranea Corpora Series

The CNC newly hosts the Aranea corpora series, which is a family of large (more than a billion tokens in size) comparable web corpora created by Vladimír Benko (Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences) for several languages, following the same methodology of compilation. The Aranea corpora are constantly updated and enlarged; currently, they include Dutch, English, French, German, Polish, Russian and Slovak. Czech, Finnish, Hungarian, Italian and Spanish are all coming soon.

Reference Corpora Across the Board

Until recently, the Czech National Corpus released both “frozen” reference corpora (such as SYN2010 or ORAL2013) and continuously updated non-reference corpora (such as SYN or InterCorp). With non-reference corpora, each new release superseded the previous version without the possibility to refer back to it easily.

Beginning with InterCorp release 7, we have changed this policy: from now on, all newly released corpora will be reference corpora and individual releases will be identifiable by their version number (e.g. InterCorp v7 – Czech). Older releases (including the InterCorp v6) will stay available to all users via the KonText interface.

KonText Concordancer

It has been over a year since we launched a modern web interface for working with our corpora – called KonText – accessible via the CNC web portal. Here are some of the newly implemented functions and features we'd like to point your attention to:

  • easily accessible query history (by pressing down in the query input line);
  • manual selection of concordance lines;
  • interactive subcorpus specification enabling users to check which texts have been selected;
  • popups with citation information for each corpus.

If you lack a specific feature in the interface, please do not hesitate to contact KonText developers with your suggestions via our Support Centre (see below).

Termination of Older Concordancers

At present, several concordancers and interfaces are available for working with our corpora: KonText (the latest addition), NoSketch Engine, Park (only for parallel corpora), and the popular yet somewhat obsolete Bonito. Each of them has served its purpose in its particular time; however, ensuring their continued operation has proved to be an increasing burden. That is why we launched and promoted KonText as a multi-purpose concordancer, an interface both user-friendly and highly functional, allowing to search in all available types of corpora, including spoken and parallel ones. Due to the fact that KonText is now fully capable of replacing its predecessors, we are now announcing the termination of Bonito, Park and NoSketch Engine support by the end of March 2015.

We therefore ask all users of the old concordancers to switch over to the new KonText concordancer. We are convinced that this change is worth the trouble, not only because of the additional functionality provided by this interface, but also due to the fact that it can and will be constantly updated and improved, based on the preferences of the CNC users themselves.

We understand that this might be a difficult step for some of you, which is why we have been advertising this plan for quite some time now; at the same time, we offer our services (consultations, training, workshops etc.) to help you get used to the new interface.

User Forum and Support Centre

Improving the services we provide to our users would be impossible without proper feedback. We have therefore decided to establish a User Forum as a hub of active support which is accessible to all registered CNC users.

The Forum provides an opportunity to lead discussions and ask questions in the Support Centre (e.g. on how to formulate a complex query, how to create a subcorpus, how to interpret results etc.) which will be answered by CNC staff members. Furthermore, the Forum allows you to report bugs and suggest various improvements in our applications (by clicking on Report an error in the footer of the individual applications). Apart from this, the standard option of consultation via e-mail, phone, or in person remains available; larger groups have the possibility to arrange for a seminar or tutorial session with us.

Repository of Corpus-based Research Outputs

The freshly launched Repository of CNC-based Research Outputs, accessible via the top navigation bar of the portal under the heading Biblio, serves to foster the growth and integration of the community of corpus researchers. All registered users can use the repository to enter bibliographical data about publications of theirs which are based on CNC resources; each record can optionally feature an attachment with the text of the publication, which will be publicly accessible to all visitors of the portal.

The goals for this repository include creating a comprehensive bibliography of corpus research on Czech, simplifying the sharing of research outputs (in the spirit of open-access philosophy), and last but not least, helping the CNC project prove its usefulness to funding agencies. We would be delighted if you could help us extend the repository and keep it up to date; over 600 records have already been entered to this day.

CNC Reference Guide

The CNC Reference Guide, a.k.a. the corpus wiki (currently available only in Czech), has been launched in the past year to help you get the most out of our applications for corpus exploration. It is aimed not only at students and newcomers to the world of corpora, who will benefit from the 7-part mini-series How to work with the corpus and the dictionary of Basic terms in corpus linguistics, but also at seasoned researchers. To the latter group, it offers descriptions of available corpora, a concise overview of the Features of the KonText interface, and various useful lists, such as a characteristic of the tagset used by the CNC, a list of abbreviations used for annotating text types and genres etc.

Much like any wiki-based project, our reference guide is a knowledge base and source of information which is by nature in a state of continuous evolution and refinement; as such, many of its parts still fall short of the ideal. Should you have any suggestions as to interesting additions to be made, feel free to tell us via the support centre.

