Mis on korpuslingvistika?

Sisukord:

Mis on korpuslingvistika?
Mis on korpuslingvistika?
Anonim

Mitu aastakümmet tagasi võisid teadlased keeleuuringute automatiseerimisest vaid unistada. Töö tehti käsitsi, sellega oli seotud suur hulk õpilasi, oli märkimisväärne "tähelepanematuse" vea tõenäosus ja mis kõige tähtsam, see kõik võttis palju, palju aega.

Arvutitehnoloogia arenguga sai võimalikuks uurimistööd teha palju kiiremini ning tänapäeval on üheks perspektiivikaks keeleõppe valdkonnaks korpuslingvistika. Selle peamine omadus on suure hulga tekstilise teabe kasutamine, mis on koondatud ühte andmebaasi, märgistatud erilisel viisil ja mida nimetatakse korpuseks.

Tänapäeval on palju erineval keelematerjalil põhinevaid erinevatel eesmärkidel loodud korpuseid, mis hõlmavad miljoneid kuni kümneid miljardeid leksikaalseid ühikuid. Seda suunda peetakse paljulubavaks ja see näitab märkimisväärseid edusamme rakenduslike ja teadusuuringute eesmärkide saavutamisel. Professionaalid, nii või teisiti tegelevadloomulik keel, on soovitatav tutvuda tekstikorpustega vähem alt algtasemel.

Korpuslingvistika ajalugu

Selle suuna kujunemine on seotud Browni korpuse loomisega USA-s eelmise sajandi 60. aastate alguses. Tekstikogu koosnes vaid 1 miljonist sõnavormist ja tänapäeval oleks sellise mahuga korpus täiesti konkurentsitu. See on suuresti tingitud arvutitehnoloogia arengutempost, aga ka kasvavast nõudlusest uute teadusressursside järele.

90ndatel kujunes korpuslingvistikast täisväärtuslik ja iseseisev distsipliin, mitmekümne keele jaoks koostati ja märgistati tekstikogusid. Sel perioodil loodi näiteks Briti rahvuskorpus 100 miljoni sõnakasutuse jaoks.

korpuslingvistika
korpuslingvistika

Selle keeleteaduse suuna arenedes suureneb tekstide maht (ja ulatub miljardite sõnavaraühikuteni) ning märgistus muutub üha mitmekesisemaks. Tänapäeval leiate Interneti-ruumist kirjaliku ja suulise kõne korpuseid, mitmekeelseid ja harivaid, mis on keskendunud ilukirjandusele või akadeemilisele kirjandusele, aga ka palju muud.

Millised juhtumid on olemas

Korpuse tüüpe saab korpuslingvistikas esitada mitmel viisil. Intuitiivselt on selge, et klassifitseerimise aluseks võib olla tekstide keel (vene, saksa), juurdepääsuviis (avatud lähtekoodiga, suletud lähtekoodiga, kommerts), lähtematerjali žanr (ilukirjandus).kirjandus, dokumentalistika, akadeemiline, ajakirjandus).

korpuslingvistika meetodid
korpuslingvistika meetodid

Huvitaval viisil genereeritakse suulist kõnet esindavaid materjale. Kuna sellise kõne tahtlik salvestamine looks vastajatele kunstlikud tingimused ning tekkivat materjali ei saa nimetada "spontaanseks", läks kaasaegne korpuslingvistika teist teed. Vabatahtlik on varustatud mikrofoniga ning päeva jooksul salvestatakse kõik vestlused, milles ta osaleb. Ümberkaudsed inimesed ei saa muidugi teada, et nad panustavad igapäevase vestluse käigus teaduse arengusse.

Hiljem salvestatakse vastuvõetud helisalvestised andmepanka ja nendega kaasneb trükitud tekst nagu ärakiri. Nii muutub võimalikuks igapäevase kõne korpuse loomiseks vajalik märgistus.

Rakendus

Kus on võimalik kasutada keelt, on võimalik kasutada ka tekstikorpusi. Korpusmeetodite kasutamise eesmärk lingvistikas võib olla:

  • Meeleoluprogrammide loomine, mida kasutatakse laialdaselt poliitikas ja äris, et jälgida vastav alt valijate ja klientide positiivset ja negatiivset tagasisidet.
  • Infosüsteemi ühendamine sõnaraamatute ja tõlkijatega, et parandada nende jõudlust.
  • Erinevad uurimisülesanded, mis aitavad mõista keele struktuuri, selle kujunemislugu ja ennustada selle muutumist lähitulevikus.
  • Teabevõtete süsteemide arendamine morfoloogilisel,süntaktilised, semantilised ja muud funktsioonid.
  • Erinevate keelesüsteemide töö optimeerimine jne.

Kestade kasutamine

Ressursi liides sarnaneb tavalise otsingumootoriga ja palub kasutajal teabebaasist otsimiseks sisestada sõna või sõnade kombinatsiooni. Lisaks täpsele päringuvormile saate kasutada laiendatud versiooni, mis võimaldab leida tekstilist teavet peaaegu kõigi keeleliste kriteeriumide alusel.

arvuti- ja korpuslingvistika
arvuti- ja korpuslingvistika

Otsingu aluseks võib olla:

  • kuulub teatud kõneosade rühma;
  • grammatilised omadused;
  • semantika;
  • stilistiline ja emotsionaalne värvimine.

Samuti saate kombineerida otsingukriteeriume sõnade jada jaoks: näiteks otsige kõik verbi esinemised olevikuvormis, esimese isikuna, ainsuses, millele järgneb eessõna "in" ja nimisõna akusatiivs. Sellise lihtsa ülesande lahendamine võtab kasutajal mõne sekundi ja nõuab vaid paari hiireklõpsu antud väljadel.

Loomisprotsess

Otsingut saab läbi viia nii kõigis alamkorpustes kui ka ühes, konkreetselt valitud, sõltuv alt konkreetse eesmärgi saavutamise vajadustest:

  1. Kõigepe alt tehakse kindlaks, millised tekstid moodustavad korpuse aluse. Praktilistel eesmärkidel kasutatakse sageli ajakirjanduslikke, ajalehtede materjale, Interneti-kommentaare. Uurimisprojektides kõige rohkemerinevat tüüpi korpuseid, kuid tekstid tuleb valida ühisel alusel.
  2. Saadud tekstikomplekt eeltöödeldakse, vead parandatakse, kui neid on, koostatakse tekstist bibliograafiline ja keeleväline kirjeldus.
  3. Kogu mittetekstiline teave filtreeritakse välja: graafika, pildid, tabelid kustutatakse.
  4. Tokenid, tavaliselt sõnad, eraldatakse edasiseks töötlemiseks.
  5. Lõpuks teostatakse saadud elementide komplekti morfoloogiline, süntaktiline ja muu märgistus.

Kõigi sooritatud toimingute tulemuseks on süntaktiline struktuur, mille peale on jaotatud elemente, millest igaühe jaoks on määratletud kõneosa, grammatilised ja mõnel juhul ka semantilised tunnused.

Raskused juhtumite loomisel

Oluline on mõista, et korpuse saamiseks ei piisa paljude sõnade või lausete kokkupanemisest. Ühest küljest peab tekstikogu olema tasakaalus, st esitama eri tüüpi tekste teatud proportsioonides. Teisest küljest tuleb ümbrise sisu erilisel viisil märgistada.

Zahharovi korpuslingvistika
Zahharovi korpuslingvistika

Esimene küsimus lahendatakse kokkuleppel: näiteks kogumikus on 60% ilukirjanduslikke tekste, 20% dokumentaalfilme, teatud proportsioon on antud suulise kõne kirjalikule esitusele, seadusandlikele aktidele, teadustöödele jne. Tänapäeva ideaalset retsepti tasakaalustatud korpuse jaoks ei eksisteeri.

Teist sisu märgistamist puudutavat küsimust on keerulisem lahendada. Tekstide automaatseks märgistamiseks kasutatakse spetsiaalseid programme ja algoritme, kuid need ei anna 100% tulemust, võivad põhjustada tõrkeid ja nõuavad käsitsi viimistlemist. Selle probleemi lahendamise võimalusi ja probleeme kirjeldatakse üksikasjalikult V. P. Zahharovi korpuslingvistika alases töös.

Teksti märgistamine toimub mitmel tasemel, mille loetleme allpool.

Morfoloogiline märgistus

Koolipingist tuletame meelde, et vene keeles on erinevad kõneosad ja igaühel neist on oma eripärad. Näiteks verbil on meeleolu- ja ajakategooriad, mida nimisõnal ei ole. Emakeelena kõneleja keeldub kõhklemata nimisõnadest ja konjugeerib verbe, kuid käsitsitöö ei sobi 100 miljoni sõnakasutuse korpuse märgistamiseks. Kõiki vajalikke toiminguid saab teha arvutiga, kuid selleks on vaja seda õpetada.

Morfoloogiline märgistus on vajalik selleks, et arvuti saaks "mõista" iga sõna kui kõneosa, millel on teatud grammatilised tunnused. Kuna vene keeles (nagu igas teises) keeles toimivad mitmed regulaarsed reeglid, on võimalik ehitada automaatne morfoloogilise analüüsi protseduur, pannes masinasse hulga algoritme. Siiski on reeglist erandeid, aga ka mitmesuguseid komplitseerivaid tegureid. Seetõttu pole puhas arvutianalüüs tänapäeval kaugeltki ideaalne ja isegi 4% vead annavad 100 miljonist ühikust koosneva korpuse väärtuseks 4 miljonit sõna, mis nõuab käsitsi täpsustamist.

Seda probleemi kirjeldab üksikasjalikult V. P. Zahharovi raamat "Korpuslingvistika".

Süntaktiline märgistus

Süntaktiline analüüs ehk sõelumine on protseduur, mis määrab sõnade suhte lauses. Algoritmide komplekti abil on võimalik tekstis määrata subjekt, predikaat, täiendused ja erinevad kõnepöörded. Selgitades välja, millised sõnad jadas on peamised ja millised sõltuvad, saame tekstist tõhus alt teavet eraldada ja õpetada masinat otsima vastuseks ainult seda teavet, mis meid huvitab.

korpuslingvistika laborid Venemaa ülikoolides
korpuslingvistika laborid Venemaa ülikoolides

Muide, tänapäevased otsingumootorid kasutavad seda konkreetsete numbrite andmiseks pikkade tekstide asemel vastuseks asjakohastele päringutele, nagu "kui palju kaloreid on õunas" või "kaugus Moskvast Peterburini". Kuid selleks, et mõista isegi kirjeldatud protsessi põhitõdesid, peate tutvuma "Sissejuhatusega korpuslingvistikasse" või mõne muu põhiõpikuga.

Semantiline märgistus

Sõna semantika on lihtsas mõttes selle tähendus. Semantilises analüüsis laialdaselt kasutatav lähenemisviis on märgendite omistamine sõnale, mis peegeldab selle kuulumist semantiliste kategooriate ja alamkategooriate hulka. Selline teave on väärtuslik teksti sentimentianalüüsi algoritmide optimeerimiseks, automaatseks viitamiseks ja muude ülesannete täitmiseks korpuslingvistika meetodeid kasutades.

Puul on mitmeid "juuri", mis on abstraktsed sõnad, millel onväga lai semantika. Selle puu hargnedes moodustuvad sõlmed, mis sisaldavad üha spetsiifilisemaid leksikaalseid elemente. Näiteks sõna "olend" võib seostada selliste mõistetega nagu "inimene" ja "loom". Esimene sõna jaguneb jätkuv alt erinevateks elukutsete, suguluse ja rahvuse terminiteks ning teine sõna klassideks ja loomaliikideks.

Teabeotsingusüsteemide kasutamine

Korpuslingvistika kasutusvaldkonnad hõlmavad väga erinevaid tegevusvaldkondi. Korpusi kasutatakse sõnaraamatute koostamiseks ja parandamiseks, automaatsete tõlkesüsteemide loomiseks, kokkuvõtete tegemiseks, faktide väljavõtmiseks, meeleolu määramiseks ja muuks tekstitöötluseks.

korpuslingvistika korpusetüübid
korpuslingvistika korpusetüübid

Lisaks kasutatakse selliseid ressursse aktiivselt maailma keelte ja keele kui terviku toimimismehhanismide uurimisel. Juurdepääs suurele hulgale eelnev alt ettevalmistatud teabele aitab kaasa keelte arengusuundade kiirele ja igakülgsele uurimisele, neologismide ja stabiilsete kõnepöörete kujunemisele, leksikaalsete üksuste tähenduste muutumisele jne.

Kuna nii suurte andmemahtudega töötamine nõuab automatiseerimist, on tänapäeval arvuti- ja korpuslingvistika vahel tihe suhtlus.

Riiklik vene keele korpus

See korpus (lühendatult NKRC) sisaldab mitmeid alamkorpusi, mis võimaldavad kasutada ressurssi mitmesuguste ülesannete lahendamiseks.

NCRA andmebaasis olevad materjalid jagunevad:

  • 90ndate ja 2000ndate meediaväljaannetesaastat, nii kodu- kui välismaist;
  • suulise kõne salvestused;
  • aktsentoloogiliselt märgistatud tekstid (st rõhumärkidega);
  • murdekõne;
  • poeetilised teosed;
  • süntaktilise märgistusega materjalid jne.

Infosüsteemis on ka alamkorpused teoste paralleeltõlketega vene keelest inglise, saksa, prantsuse ja paljudesse teistesse keeltesse (ja vastupidi).

Samuti on andmebaasis ajalooliste tekstide osa, mis esindab venekeelset kirjalikku kõnet selle erinevatel arenguperioodidel. Samuti on olemas koolituskorpus, mis võib olla kasulik välisriikide kodanikele vene keele valdamisel.

Vene keele rahvuskorpus sisaldab 400 miljonit leksikaalset ühikut ja on paljuski ees olulisest osast Euroopa keelte korpustest.

Väljavaated

Selle valdkonna paljutõotavaks tunnistamise kasuks on korpuslingvistika laborite olemasolu nii Venemaa kui ka välismaa ülikoolides. Vaatlusaluse infootsingu ressursside raames kasutamise ja uurimisega on seotud mõne valdkonna arendamine kõrgtehnoloogiate, küsimuste-vastuste süsteemide vallas, kuid sellest oli juttu eespool.

korpuslingvistika ajalugu
korpuslingvistika ajalugu

Korpuslingvistika edasist arengut ennustatakse kõigil tasanditel, alates tehnilisest, uute algoritmide kasutuselevõtu osas, mis optimeerivad teabe otsimise ja töötlemise protsesse, laiendavad arvutite võimalusi, suurendavad töövõimet.mälu ja lõpetades majapidamistega, kuna kasutajad leiavad üha rohkem võimalusi seda tüüpi ressursside kasutamiseks igapäevaelus ja tööl.

Kokkuvõtteks

Eelmise sajandi keskel tundus 2017. aasta kauge tulevikuna, kus kosmoseaparaadid surfavad Universumi avarustes ja robotid teevad kogu töö inimeste eest ära. Tegelikkuses on teadus aga täis "tühje kohti" ja teeb meeleheitlikke katseid vastata küsimustele, mis on inimkonda sajandeid vaevanud. Keele toimimise küsimused on siin tähtsal kohal ning korpus ja arvutuslingvistika aitavad meil neile vastata.

Suurte andmemahtude töötlemine võimaldab tuvastada mustreid, mis olid varem kättesaamatud, ennustada teatud keeleomaduste arengut, jälgida sõnade kujunemist peaaegu reaalajas.

Praktilisel globaalsel tasandil võib korpuseid pidada näiteks potentsiaalseks avaliku meeleolu hindamise vahendiks - Internet on pidev alt täienev andmebaas erinevatest reaalsete kasutajate loodud tekstidest: need on kommentaarid, ülevaated, artiklid ja palju muid kõnevorme.

Lisaks aitab korpustega töötamine kaasa samade tehniliste vahendite arendamisele, mis on seotud teabeotsinguga, mis on meile tuttavad Google'i või Yandexi teenustest, masintõlketest, elektroonilistest sõnaraamatutest.

Võib kindl alt öelda, et korpuslingvistika teeb alles esimesi samme ja areneb lähitulevikus kiiresti.

Soovitan: