O korpusie

Wprowadzenie

Korpus Dyskursu Parlamentarnego jest zbiorem anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej (są stale uzupełniane materiałami z kolejnych posiedzeń). Teksty opisane metadanymi oraz przetworzone automatycznie narzędziami lingwistycznymi (do segmentacji, analizy morfoskładniowej, rozpoznawania grup składniowych i nazw własnych) są dostępne do przeszukiwania oraz pobrania.

Źródło tekstów i licencja na ich wykorzystanie

Wszystkie teksty pochodzą z serwisów Sejmu i Senatu RP i zostały udostępnione dzięki uprzejmości Kancelarii Sejmu RP, Kancelarii Senatu RP oraz Biblioteki Sejmowej. Teksty stanowią informację publiczną i jako takie są dostępne w domenie publicznej. Anotacje lingwistyczne są dostępne na licencji CC-BY.

Autorzy

Korpus powstał w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach dwóch projektów:

CESAR/META-NET, realizowanym w latach 2011–13 i dofinansowanym ze środków Komisji Europejskiej oraz Ministerstwa Nauki i Szkolnictwa Wyższego,
CLARIN-PL, realizowanym w latach 2016–18 i finansowanym ze środków MNiSW.

W pracach nad korpusem udział wzięli:

Maciej Ogrodniczuk (pomysłodawca i koordynator prac korpusowych),
Zbigniew Gawłowicz (implementacja wyszukiwarki korpusowej).
Daniel Janus (pobieranie danych, ich konwersja do formatu TEI i przetworzenie narzędziami analizy lingwistycznej),
Michał Lenart (pobieranie danych, ich konwersja do formatu TEI i przetworzenie narzędziami analizy lingwistycznej),
Bartłomiej Nitoń (przetworzenie danych narzędziami analizy lingwistycznej),
Michał Rudolf (konwersja danych do formatu TEI),
Beata Wójtowicz (zarządzanie korektą danych),
zespół korektorów odpowiedzialnych za skanowanie, OCR i weryfikację tekstów historycznych dostępnych jedynie w formie papierowej.

Publikacje

Maciej Ogrodniczuk. Polish Parliamentary Corpus [w:] Darja Fišer, Maria Eskevich, Franciska de Jong (red.) Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, s. 15–19, Paryż, European Language Resources Association (ELRA).
Maciej Ogrodniczuk. The Polish Sejm Corpus [w:] Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC 2012), s. 2219–2223, Stambuł, ELRA.

Więcej informacji zawiera strona z danymi do pobrania.

Informacje kontaktowe

Prosimy o kontakt pod adresem:

Maciej Ogrodniczuk
Instytut Podstaw Informatyki PAN
ul. Jana Kazimierza 5
01-248 Warszawa
tel. (+48 22) 38 00 563
e-mail: maciej.ogrodniczuk@ipipan.waw.pl