Besedilni korpus

Besedilni korpus je velika,  strukturirana zbirka besedil, ki lahko zajema več besedil ali pa posamezen tekst (npr. roman, dramo itd.).

Poznamo enojezikovni  (vsa besedila so v enem jeziku) ali večjezikovni  korpus (besedila so v različnih jezikih).
Tipi korpusov:

1.  Referenčni korpus – ki vključuje večino pisne produkcije neke družbe in združuje literarna dela, strokovne tekste, novinarske članke, zakone, zapisnike sej državnega zbora itd. – najboljši primer je korpus Nova beseda.

2.  Govorni korpus – je v bistvu prepis velikega števila vsakdanjih pogovorov in nam omogoča raziskovanje posebnosti govorne komunikacije.

3.  Specializirani korpusi – se omejujejo na posamezno področje – lahko so strokovni ali poljudni, lahko pa tudi ozko specializirani – zajemanjo samo eno literarno delo.

4. Vzorčni korpusi – v korpus vključimo samo del besedil z določenega področja.

5. Spremljevalni korpusi – s katerimi spremljamo razvoj jezika in odkrivamo nove rabe itd.

6. Komparativni korpusi – omogočajo primerjavo med posameznimi področji.

7. Vzporedni korpusi – olajšajo prevajanje – tak je Evrokorpus, kjer lahko primerjate prevedena zakonska besedila EU in izvirnike.

One comment

Comments are closed.