Kas ir korpuslingvistika?

Satura rādītājs:

Kas ir korpuslingvistika?
Kas ir korpuslingvistika?
Anonim

Pirms vairākiem gadu desmitiem zinātnieki varēja tikai sapņot par lingvistisko pētījumu automatizāciju. Darbs tika veikts ar rokām, tajā bija iesaistīts liels skaits skolēnu, bija ievērojama "neuzmanības" kļūdas iespējamība, un galvenais, tas viss prasīja daudz, daudz laika.

Attīstoties datortehnoloģijām, kļuva iespējams veikt pētījumus daudz ātrāk, un mūsdienās viena no perspektīvām jomām valodas izpētē ir korpuslingvistika. Tās galvenā iezīme ir liela teksta informācijas apjoma izmantošana, kas apvienota vienā datu bāzē, iezīmēta īpašā veidā un saukta par korpusu.

Mūsdienās ir daudz korpusu, kas izveidoti dažādiem mērķiem, pamatojoties uz dažādu valodu materiālu, aptverot no miljoniem līdz desmitiem miljardu leksisko vienību. Šis virziens ir atzīts par daudzsološu un demonstrē ievērojamu progresu lietišķo un pētniecības mērķu sasniegšanā. Profesionāļi, tā vai citādi nodarbojas ardabiskā valoda, ieteicams iepazīties ar teksta korpusiem vismaz pamatlīmenī.

Korpuslingvistikas vēsture

Šī virziena veidošanās saistīta ar Brauna korpusa izveidi ASV pagājušā gadsimta 60. gadu sākumā. Tekstu krājums sastāvēja tikai no 1 miljona vārdu formu, un šodien šāda apjoma korpuss būtu pilnīgi nekonkurētspējīgs. Tas lielā mērā ir saistīts ar datortehnoloģiju attīstības tempu, kā arī pieaugošo pieprasījumu pēc jauniem pētniecības resursiem.

90. gados korpuslingvistika veidojās par pilnvērtīgu un neatkarīgu disciplīnu, tika apkopoti un marķēti tekstu krājumi vairākiem desmitiem valodu. Šajā periodā, piemēram, Lielbritānijas nacionālais korpuss tika izveidots 100 miljoniem vārdu lietojumiem.

korpuslingvistika
korpuslingvistika

Attīstoties šim valodniecības virzienam, tekstu apjoms kļūst lielāks (un sasniedz miljardus vārdu krājuma vienību), un marķējums kļūst arvien daudzveidīgāks. Mūsdienās interneta telpā var atrast rakstiskas un mutiskas runas korpusus, daudzvalodu un izglītojošus, kas vērsti uz daiļliteratūru vai akadēmisko literatūru, kā arī daudzas citas šķirnes.

Kādi gadījumi pastāv

Korpusa tipus korpuslingvistikā var attēlot vairākos veidos. Intuitīvi skaidrs, ka klasifikācijas pamatā var būt tekstu valoda (krievu, vācu), piekļuves veids (atklātais avots, slēgts avots, komerciāls), izejmateriāla žanrs (daiļliteratūra).literatūra, dokumentālā filma, akadēmiskā filma, žurnālistika).

korpuslingvistikas metodes
korpuslingvistikas metodes

Interesantā veidā tiek veikta mutvārdu runas materiālu ģenerēšana. Tā kā šādas runas apzināta ierakstīšana radītu respondentiem mākslīgus apstākļus un iegūto materiālu nevarētu nosaukt par "spontānu", mūsdienu korpuslingvistika gāja citu ceļu. Brīvprātīgais ir aprīkots ar mikrofonu, un dienas laikā tiek ierakstītas visas sarunas, kurās viņš piedalās. Apkārtējie, protams, nevar zināt, ka ikdienas sarunā viņi sniedz ieguldījumu zinātnes attīstībā.

Vēlāk saņemtie audio ieraksti tiek saglabāti datu bankā un tiem pievienots drukāts teksts kā atšifrējums. Tādā veidā kļūst iespējams marķējums, kas nepieciešams, lai izveidotu runātas ikdienas runas korpusu.

Pieteikums

Tur, kur iespējams lietot valodu, iespējams izmantot arī teksta korpusus. Korpusa metožu izmantošanas mērķis valodniecībā var būt:

  • Izveidot noskaņojuma programmas, kas tiek plaši izmantotas politikā un uzņēmējdarbībā, lai izsekotu pozitīvas un negatīvas atsauksmes no attiecīgi vēlētājiem un klientiem.
  • Informācijas sistēmas pievienošana vārdnīcām un tulkotājiem, lai uzlabotu to veiktspēju.
  • Dažādi pētnieciskie uzdevumi, kas veicina izpratni par valodas uzbūvi, attīstības vēsturi un prognozēm par izmaiņām tuvākajā nākotnē.
  • Informācijas ieguves sistēmu izstrāde, pamatojoties uz morfoloģisku,sintaktiskās, semantiskās un citas funkcijas.
  • Dažādu lingvistisko sistēmu darba optimizācija u.c.

Apvalku izmantošana

Resursu saskarne ir līdzīga parastai meklētājprogrammai, un lietotājam tiek piedāvāts ievadīt vārdu vai vārdu kombināciju, lai meklētu informācijas bāzē. Papildus precīzai pieprasījuma veidlapai varat izmantot paplašināto versiju, kas ļauj atrast tekstuālu informāciju pēc gandrīz jebkura valodas kritērija.

datorzinātne un korpuslingvistika
datorzinātne un korpuslingvistika

Meklēšanas pamats var būt:

  • pieder noteiktai runas daļu grupai;
  • gramatiskās iezīmes;
  • semantika;
  • stilistisks un emocionāls krāsojums.

Varat arī kombinēt meklēšanas kritērijus vārdu secībai: piemēram, atrast visus darbības vārda gadījumus tagadnes formā, pirmajā personā, vienskaitlī, kam seko priekšvārds "in" un lietvārds akuzatīvā gadījumā.. Tik vienkārša uzdevuma atrisināšana aizņem dažas sekundes un prasa tikai dažus peles klikšķus norādītajos laukos.

Izveides process

Pašu meklēšanu var veikt gan visos apakškorpusos, gan vienā, īpaši izvēlētajā, atkarībā no vajadzībām konkrēta mērķa sasniegšanai:

  1. Vispirms tiek noteikts, kuri teksti veidos korpusa pamatu. Praktiskiem nolūkiem bieži tiek izmantoti žurnālistikas, avīžu materiāli, interneta komentāri. Pētniecības projektos visvairākdažāda veida korpusi, taču teksti ir jāizvēlas pēc kāda kopīga pamata.
  2. Iegūtā tekstu kopa tiek iepriekš apstrādāta, izlabotas kļūdas, ja tādas ir, sagatavots teksta bibliogrāfisks un ekstralingvistiskais apraksts.
  3. Visa netekstuālā informācija tiek filtrēta: tiek dzēsti attēli, attēli, tabulas.
  4. Tokeni, parasti vārdi, tiek piešķirti turpmākai apstrādei.
  5. Visbeidzot tiek veikta iegūtās elementu kopas morfoloģiskā, sintaktiskā un cita veida iezīmēšana.

Visu veikto darbību rezultāts ir sintaktiskā struktūra ar pa to sadalītu elementu kopu, kurai katram ir noteikta runas daļa, gramatiskās un dažos gadījumos arī semantiskās pazīmes.

Grūtības, veidojot lietas

Ir svarīgi saprast, ka, lai iegūtu korpusu, nepietiek ar daudz vārdu vai teikumu salikšanu. No vienas puses, tekstu krājumam jābūt līdzsvarotam, tas ir, dažāda veida tekstu prezentēšanai noteiktās proporcijās. No otras puses, lietas saturs ir jāmarķē īpašā veidā.

Zaharova korpuslingvistika
Zaharova korpuslingvistika

Pirmais jautājums tiek risināts pēc vienošanās: piemēram, krājumā ir 60% daiļliteratūras teksti, 20% dokumentālās filmas, noteikta proporcija tiek atvēlēta mutvārdu runas rakstveida prezentācijai, likumdošanas aktiem, zinātniskiem darbiem utt. Ideāla līdzsvarota korpusa recepte šodien nepastāv.

Otro jautājumu par satura iezīmēšanu ir grūtāk atrisināt. Automātiskai tekstu iezīmēšanai tiek izmantotas īpašas programmas un algoritmi, taču tie nedod 100% rezultātu, var izraisīt kļūmes un prasa manuālu precizēšanu. Šīs problēmas risināšanas iespējas un problēmas detalizēti aprakstītas V. P. Zaharova darbā par korpuslingvistiku.

Teksta iezīmēšana tiek veikta vairākos līmeņos, kurus mēs uzskaitīsim tālāk.

Morfoloģiskais marķējums

No skolas sola atceramies, ka krievu valodā ir dažādas runas daļas, un katrai no tām ir savas īpatnības. Piemēram, darbības vārdam ir noskaņojuma un laika kategorijas, kuru lietvārdam nav. Dzimtā valoda bez vilcināšanās atsakās no lietvārdiem un konjugē darbības vārdus, taču roku darbs nav piemērots, lai atzīmētu 100 miljonu vārdu lietojumu korpusu. Visas nepieciešamās darbības var veikt ar datoru, tomēr tam tas ir jāiemāca.

Morfoloģiskais marķējums ir nepieciešams, lai dators "saprastu" katru vārdu kā kādu runas daļu, kurai ir noteiktas gramatiskas iezīmes. Tā kā krievu (tāpat kā jebkurā citā) valodā darbojas vairāki regulāri noteikumi, ir iespējams izveidot automātisku morfoloģiskās analīzes procedūru, ieliekot mašīnā vairākus algoritmus. Tomēr noteikumam ir izņēmumi, kā arī dažādi sarežģījoši faktori. Rezultātā tīra datoranalīze mūsdienās ir tālu no ideāla, un pat 4% kļūdu sniedz 4 miljonu vārdu vērtību 100 miljonu vienību korpusā, kas prasa manuālu pilnveidošanu.

Šī problēma ir detalizēti aprakstīta V. P. Zaharova grāmatā "Korpuslingvistika".

Sintaktiskais marķējums

Sintaktiskā analīze jeb parsēšana ir procedūra, kas nosaka vārdu attiecības teikumā. Ar algoritmu kopas palīdzību kļūst iespējams tekstā noteikt priekšmetu, predikātu, papildinājumus un dažādus runas pagriezienus. Noskaidrojot, kuri vārdi secībā ir galvenie un kuri ir atkarīgi, mēs varam efektīvi iegūt informāciju no teksta un apmācīt iekārtu atgriezt tikai to informāciju, kas mūs interesē, atbildot uz meklēšanas pieprasījumu.

korpuslingvistikas laboratorijas Krievijas universitātēs
korpuslingvistikas laboratorijas Krievijas universitātēs

Starp citu, mūsdienu meklētājprogrammas to izmanto, lai sniegtu konkrētus skaitļus, nevis garus tekstus, atbildot uz atbilstošiem vaicājumiem, piemēram: “cik kaloriju ir ābolā” vai “attālums no Maskavas līdz Sanktpēterburgai”. Tomēr, lai saprastu pat pašus aprakstītā procesa pamatus, jums būs jāiepazīstas ar "Ievadu korpuslingvistikā" vai citu pamata mācību grāmatu.

Semantiskais marķējums

Vārda semantika, vienkārši izsakoties, ir tā nozīme. Plaši pielietojama pieeja semantiskajā analīzē ir tagu piešķiršana vārdam, atspoguļojot tā piederību semantisko kategoriju un apakškategoriju kopai. Šāda informācija ir vērtīga teksta sentimenta analīzes algoritmu optimizēšanai, automātiskai atsaucei un citu uzdevumu veikšanai, izmantojot korpuslingvistikas metodes.

Ir vairākas koka "saknes", kas ir abstrakti vārdi, kuriem irļoti plaša semantika. Šim kokam zarojoties, veidojas mezgli, kas satur arvien specifiskākus leksiskos elementus. Piemēram, vārdu "radījums" var saistīt ar tādiem jēdzieniem kā "cilvēks" un "dzīvnieks". Pirmais vārds turpinās sazaroties dažādās profesijās, radniecības terminos, tautībā, bet otrais - dzīvnieku klasēs un veidos.

Informācijas izguves sistēmu izmantošana

Korpuslingvistikas izmantošanas sfēras aptver ļoti dažādas darbības jomas. Korpusi tiek izmantoti vārdnīcu sastādīšanai un labošanai, automātisko tulkošanas sistēmu izveidei, apkopošanai, faktu iegūšanai, noskaņojuma noteikšanai un citai teksta apstrādei.

korpuslingvistikas korpusu veidi
korpuslingvistikas korpusu veidi

Turklāt šādi resursi tiek aktīvi izmantoti, pētot pasaules valodas un valodas funkcionēšanas mehānismus kopumā. Piekļuve liela apjoma iepriekš sagatavotai informācijai veicina ātru un visaptverošu valodu attīstības tendenču izpēti, neoloģismu veidošanos un stabilus runas pagriezienus, leksisko vienību nozīmju izmaiņas utt.

Tā kā darbam ar tik lielu datu apjomu ir nepieciešama automatizācija, mūsdienās pastāv cieša mijiedarbība starp datoru un korpuslingvistiku.

Nacionālais krievu valodas korpuss

Šis korpuss (saīsināts kā NKRC) ietver vairākus apakškorpusus, kas ļauj izmantot resursu dažādu uzdevumu risināšanai.

Materiāli NCRA datubāzē ir sadalīti:

  • par publikācijām 90. un 2000. gadu plašsaziņas līdzekļosgadi, gan iekšzemes, gan ārvalstu;
  • mutiskās runas ieraksti;
  • akcentoloģiski iezīmēti teksti (t.i., ar akcenta zīmēm);
  • dialektu runa;
  • poētiski darbi;
  • materiāli ar sintaktisko marķējumu utt.

Informācijas sistēmā ir iekļauti arī apakškorpusi ar paralēlajiem darbu tulkojumiem no krievu valodas angļu, vācu, franču un daudzās citās valodās (un otrādi).

Tāpat datubāzē ir vēsturisko tekstu sadaļa, kas atspoguļo rakstīto runu krievu valodā dažādos tās attīstības periodos. Ir arī mācību korpuss, kas var būt noderīgs ārvalstu pilsoņiem krievu valodas apguvē.

Krievu valodas nacionālais korpuss ietver 400 miljonus leksisko vienību un daudzējādā ziņā apsteidz ievērojamu daļu no Eiropas valodu korpusiem.

Izredzes

Fakts par labu šīs jomas atzīšanai par perspektīvu ir korpuslingvistikas laboratoriju klātbūtne Krievijas, kā arī ārvalstu augstskolās. Ar izmantošanu un izpēti aplūkoto informācijas izguves resursu ietvaros ir saistīta atsevišķu jomu attīstība augsto tehnoloģiju, jautājumu-atbilžu sistēmu jomā, taču par to tika runāts iepriekš.

korpuslingvistikas vēsture
korpuslingvistikas vēsture

Tālāka korpuslingvistikas attīstība tiek prognozēta visos līmeņos, sākot ar tehnisko, jaunu algoritmu ieviešanu, kas optimizē informācijas meklēšanas un apstrādes procesus, paplašinot datoru iespējas, palielinot operatīvo.atmiņa un beidzot ar sadzīves, jo lietotāji arvien vairāk atrod veidus, kā izmantot šāda veida resursus ikdienā un darbā.

Nobeigumā

Pagājušā gadsimta vidū 2017. gads šķita kā tāla nākotne, kurā kosmosa kuģi sērfo Visuma plašumos un roboti dara visu darbu cilvēku vietā. Tomēr patiesībā zinātne ir pārpildīta ar "tukšiem plankumiem", un tā izmisīgi mēģina atbildēt uz jautājumiem, kas cilvēci ir satraukuši gadsimtiem ilgi. Valodas funkcionēšanas jautājumi šeit ieņem īpašu vietu, un korpuss un skaitļošanas lingvistika var mums palīdzēt atbildēt uz tiem.

Liela datu apjoma apstrāde ļauj atklāt modeļus, kas iepriekš nebija pieejami, paredzēt noteiktu valodas iezīmju attīstību, izsekot vārdu veidošanai gandrīz reāllaikā.

Praktiskā globālā līmenī korpusus var uzskatīt, piemēram, par potenciālu sabiedrības noskaņojuma novērtēšanas instrumentu - internets ir pastāvīgi atjaunināta dažādu reālu lietotāju veidotu tekstu datubāze: tie ir komentāri, apskati, raksti., un daudzi citi runas veidi.

Turklāt darbs ar korpusiem veicina tādu pašu tehnisko līdzekļu izstrādi, kas ir saistīti ar informācijas izguvi, kas mums ir pazīstami no Google vai Yandex pakalpojumiem, mašīntulkošanas, elektroniskajām vārdnīcām.

Var droši teikt, ka korpuslingvistika sper tikai pirmos soļus un tuvākajā nākotnē strauji attīstīsies.

Ieteicams: