NastanekŠole in univerze

Kaj je Corpus Linguistics?

Samo pred nekaj desetletji za avtomatizacijo jezikovne raziskave, bi lahko znanstveniki samo sanja. Delo je bilo opravljeno s strani privablja veliko število študentov, obstaja velika verjetnost "nepremišljene" napake, in kar je najpomembnejše - vse to je dolgo, dolgo časa.

Z je razvoj računalniške tehnologije postalo mogoče izvesti raziskave na red velikosti hitreje, in je danes eden izmed najbolj obetavnih smeri v študij jezika je a korpusno jezikoslovje. Njena glavna značilnost je uporaba velike količine podatkov, besedil, informacij v enotno bazo podatkov, na poseben način in se imenuje izrazito telo.

Do danes, obstaja veliko stavb, ustvarjene z različnimi namene na podlagi različnih jezikovnih materiala segajo od milijonov na desetine milijard leksikalnih enot. Ta smer je priznan kot obetaven in kaže velik napredek pri doseganju namenov uporabe in raziskav. Strokovnjaki, tako ali drugače ukvarjajo z naravnega jezika, je priporočljivo, da se seznanijo s telesom besedil, vsaj na osnovni ravni.

Zgodovina korpusa jezikoslovja

Nastanek tega trenda je posledica ustanovitve Združenih držav Amerike na Brown telesa v zgodnjih 60-ih letih prejšnjega stoletja. Zbirka vsebuje besedila vseh 1 milijon besednih oblik, in danes telo te velikosti bi bila povsem nekonkurenčna. To je predvsem zaradi hitrosti razvoja računalniške tehnologije, kot tudi naraščajoče povpraševanje po novih raziskovalnih sredstev.

V 90-ih korpusno jezikoslovje pojavile v polno in neodvisno discipline, so zbirka besedil pripravi in označen za deset jezikov. V tem obdobju je bila ustvarjena, na primer British National Corpus 100 milijonov žetoni.

Z razvojem tega področja jezikoslovja, obseg besedila postajajo vse bolj in bolj (in dosežejo milijarde slovarju enot), in postavitev postaja vse bolj raznoliko. Do danes, lahko internet prostor našel trupla pisna in govorijo jezik, večjezični in-učenje usmerjeno umetniško ali akademske literature, kot tudi mnoge druge vrste.

Kaj so ohišje

Vrsta karoserije v telesu jezikoslovja se lahko zagotovi iz več razlogov. Intuitivno, lahko podlaga za razvrščanje je jezik besedila (rusko, nemško), način dostopa (open source, zaprto, poslovna), žanr izvornega materiala (igrani, dokumentarni, akademik, novinarstvo).

Zanimiv način ustvarja materialov govorjenega jezika. Ker je namerno snemanje takega govora ustvariti umetno okolje za vprašanih, in nastali material ni mogoče imenuje "spontana", je sodobna korpusno jezikoslovje šli v drugo smer. Prostovoljec je opremljen z mikrofonom, in čez dan proizvaja evidenco vseh pogovorov, v katerih sodeluje. Ljudje okoli, seveda, morda ne vedo, da je v teku vsakdanjega pogovora prispeva k razvoju znanosti.

Kasneje je prejel zapis, shranjene v zbirki podatkov, in jih spremlja natisnjene na vrsto besedila Prepis. Tako postane mogoče označevalni potrebno ustvariti oralnega dnevnega stanovanja govora.

aplikacija

Kadar je le mogoče raba jezika, in morda uporaba zgradb besedil. Metode uporabljajo trup v jezikoslovju lahko:

  • Oblikovanje programa, ki določa ključ, ki se pogosto uporablja v politiki in poslovanju slediti pozitivnih in negativnih odzivov volivcev in strank, oz.
  • Povezava informacijski sistem za slovarjev in prevajalcev za izboljšanje njihove učinkovitosti.
  • Različne raziskovalnih nalog, ki prispevajo k razumevanju jezika enote, zgodovino njegovega razvoja in napovedovanje sprememb v bližnji prihodnosti.
  • Razvoj sistemov za iskanje informacij na podlagi morfoloških, skladenjskih, pomenskih in drugih funkcij.
  • Optimizacija različnih jezikovnih sistemov in drugih.

Uporaba stavb

Podobno vmesnik vir z značilno iskalnik, in pozove uporabnika, da vnese besedo ali kombinacijo besed za iskanje v bazi podatkov. Poleg tvori točen izraz lahko uporabite izboljšano različico, ki omogoča, da bi našli besedilne podatke o skoraj vseh jezikovnih meril.

Iskanje bazo lahko:

  • pripadnosti določeni skupini delov govora;
  • slovnične lastnosti;
  • semantika;
  • slogovna in čustveno obarvanost.

Prav tako lahko kombinirate iskalne kriterije za zaporedje besed, na primer, da bi našli vse pojavitve glagola v sedanjiku, prvi osebi ednine, ki prihaja po predlogom "v" in samostalnika v tožilnik primeru. Rešitev za take enostavne naloge je uporabniku nekaj sekund in zahteva le nekaj klikov z miško na navedenih področjih.

Postopek oblikovanja

Iskanje sama se lahko izvajajo na vseh subcorpus in ena posebej izbrana, odvisno od potreb na dosego določenega cilja:

  1. Prvi korak je, da se opredeli, ki besedila osnova za primer. Iz praktičnih razlogov se pogosto uporablja novinarske, novice, spletne komentarje. Raziskovalni projekt je uporaba različnih vrst paketov, ampak besedilo je treba izbrati glede na nekaj skupnih točk.
  2. Nastala zbirka besedil, ki se za predobdelavo, da je odpravljanje napak, če obstaja, bibliografsko in ekstra-jezikovnega opisa besedila pripravljena.
  3. Se izloči vse ne-besedilne podatke: Izbris grafike, slike, tabele.
  4. Je dodelitev žetonov, ki so običajno govor, za nadaljnjo predelavo.
  5. Končno je izvedena morfološko, skladenjsko in drugih oznak pridobljeni množico elementov.

Rezultat vseh poslih, ki jih je skladenjsko strukturo z njimi razdeli množico elementov, od katerih je vsaka ugotovljene del govora, slovnične in, v nekaterih primerih, semantičnih atributov.

Težave pri ustvarjanju stavb

Pomembno je razumeti, da ni dovolj, da skupaj niz besed ali stavkov za telo. Po eni strani naj bi zbirka besedil biti uravnotežen, to pomeni, da predstavljajo različne vrste besedil v določenih razmerjih. Po drugi strani - če vsebina prostoru je razporejenih na poseben način.

Prvi problem je rešen s pogodbo: na primer, v zbirki ima 60% literarnih besedil, 20% dokumentarcev, ki je določen odstotek dati pisno predstavitev govorjenega jezika, zakonodaje, znanstvenih del, itd popoln recept uravnoteženo telo, danes ne obstaja ...

Drugo vprašanje, ki se nanaša postavitev vsebine, rešiti zahtevna. Obstajajo posebne programe in algoritme, ki se uporabljajo za avtomatsko označevanje besedil, vendar pa ne dajejo popolne rezultate, lahko povzroči motnje in zahtevajo ročno predelati. Priložnosti in izzivi, ki se ukvarjajo s tem problemom so podrobno opisani v dokumentu V. P. Zaharova od korpusnega jezikoslovja.

Besedilo označevalni se izvaja na različnih ravneh, ki jih navajajo v nadaljevanju.

morfološko označevanje

Iz šole, se spomnimo, da je v ruskem jeziku različne dele govora, in vsak od njih ima svoje značilnosti. Na primer, glagol ima kategorije naklona in čas, v katerem ne samostalnik. naravni govorec brez obotavljanja zavrne samostalnike in konjugirane glagoli, ampak za obeležitev telo 100 milijonov. žetonih, ročno delo ne bo delovala. Vse potrebne operacije lahko izvaja računalnik, vendar pa je za to, da je treba poučevati.

Morfološko označevanje, mora računalnik "razumeti" vsako besedo, kot je določen del govora, ki ima določene slovnične lastnosti. Ker je ruski (in kateri koli drug jezik) upravlja število rednih pravil, je mogoče zgraditi samodejni postopek za morfološko analizo, ki vlagajo v avtu za več algoritmov. Vendar pa obstajajo izjeme od pravila, kot tudi različne zaplete dejavnikov. Kot rezultat, neto računalniška analiza danes je daleč od ideala, in celo 4% napaka dobimo vrednost 4 mln. Besede na telo 100 milijonov. Enot, ki zahtevajo ročno predelati.

Podrobnejši knjiga opisuje težave Zaharova V. P. "korpusnega jezikoslovja".

skladenjsko označevanje

Razčlenjevanje ali razčlenjevanje - postopek, ki določa odnos besed v stavku. Uporaba nabor algoritmov je mogoče ugotoviti, da besedilo predmeta, povedka, dodatki, več obratov govora. Ugotovite, katere besede so glavni zaporedje, in ki - odvisno, bomo lahko učinkovito pridobivanje informacij iz besedila in za poučevanje stroj, da v odgovor na zahtevo za preiskavo izda samo informacije nas zanimiva.

Mimogrede, sodobni iskalniki uporabljajo to, da bi iz posebne številke namesto dolgih besedil v odgovor na ustrezne poizvedbe, kot so "koliko kalorij v jabolko" ali "na razdalji od Moskve do St. Peterburga." Vendar pa je razumeti tudi osnove procesa, ki ga je treba, da se posvetuje z "Uvod v Corpus Linguistics" ali drugi osnovni tutorial opisanim.

semantični označevalni

Semantika besede - je na preprost način, smislu. Pogosto se uporablja pristop k semantično analizo beseda dodeljevanja oznak, ki odraža njegov spada v niz pomenskih kategorij in podkategorij. Takšne informacije so koristne za optimizacijo algoritmov analizirali besedila ton, avtomatsko povzetka in druge naloge metode korpusnega jezikoslovja.

Obstajajo številne "korenine" drevesa, ki predstavlja abstraktno besedo z zelo širokimi semantiko. Kot so oblikovani veja drevesa vozlišč, ki vsebujejo več in bolj specifičnih leksikalnih elementov. Na primer, beseda "bitje", povezana s takimi pojmi kot so "človeški" in "živali". Prva beseda bo še podružnico v različne poklice, sorodstvenih izrazov, državljanstvo, in drugi - o vrstah in živali.

Uporaba sistemov za iskanje informacij

Področja uporabe korpusnega jezikoslovja pokrivajo različna področja delovanja. Ohišja se uporabljajo za pripravo in slovarjev, ustvarjanje samodejnih sistemov za prevajanje, zapisovanje, priklic dejstev, ki določajo ton in druge obdelave besedila.

Poleg tega so ti viri aktivno uporablja pri preučevanju svetovnih jezikov in mehanizmov za delovanje jezika nasploh. Dostop do velikih količin vnaprej pripravljenih informacij omogoča hitro in obsežno študijo trendov razvoja jezikov, in sprememba stabilne investicije v neologizmi hitrost govora vrednosti leksikalnih enot in drugih.

Ker je delo s temi velikimi količinami podatkov zahteva avtomatizacijo, danes obstaja tesna interakcija med računalniškimi in korpusnega jezikoslovja.

Ruski nacionalni korpus

Ta primer (skrajšano NKRYA) vključuje številne subcorpus, ki omogoča uporabo vira za najrazličnejše naloge.

Gradivo v zbirki podatkov se delijo NKRYA:

  • do objav v 90-ih in 2000. medijev ", tako doma in v tujini;
  • snemanje govora;
  • aktsentologicheski označena besedila (tj oznake stresa);
  • narečje govora;
  • poezija;
  • Materiali z skladenjskih in drugimi oznakami.

Informacijski sistem vključuje tudi Subcorpus z vzporednimi prevodi del iz ruščine v angleškem, nemškem, francoskem in mnoge druge jezike (in obratno).

Tudi v podatkovni bazi je del zgodovinskih besedil, ki predstavlja pisno govor v ruščini v različnih obdobjih svojega razvoja. Na voljo je tudi organ za usposabljanje, ki so lahko koristni za tuje državljane pri obvladovanju ruski jezik.

Ruski nacionalni korpus obsega 400 milijonov leksikalnih enot, in v mnogih pogledih prihodnjih znatnega dela jezikov organov Evrope.

možnosti

Dejstvo v prid priznanju tega trenda je dostopnost obeta laboratorijske corpus jezikoslovje v ruskih univerzah, kot tudi tuje. Z uporabo in raziskav v okviru te informacije in iskanja virov vključuje razvoj določenih območij na področju visokih tehnologij,-vprašanje odgovorite sistemov, vendar je opisano zgoraj.

Nadaljnji razvoj korpusnega jezikoslovja je predvidena na vseh ravneh, od tehničnega in v smislu izvajanja novih algoritmov, ki optimizirajo procese iskanje in obdelavo informacij, ki pooblašča računalnikov, več RAM-a, in do potrošnika, saj so uporabniki več načinov za uporabo te vrste virov v njihovo vsakodnevno življenje in delo.

Na koncu

V sredini prejšnjega stoletja leta 2017 zdelo oddaljeno prihodnost, kjer vesoljske ladje potujejo skozi vesolje in roboti storiti vse delo za ljudi. Dejstvo je, znanost je polna "bele lise" in tako obupne poskuse, da odgovorijo na vprašanja človeštva za stoletja moteče. Vprašanja, ki delujejo jezika tu zavzemajo častno mesto, in kabinet in računalniško jezikoslovje nam lahko pomaga odgovoriti na njih.

Obdelava velikih zbirk podatkov lahko zazna vzorce, prej nedostopni, napovedujejo razvoj posebnih jezikovnih značilnosti, da bi spremljali nastajanje besed v skoraj realnem času.

Na praktični ravni, lahko globalne ohišja videli, na primer, kot potencialno orodje za oceno javno razpoloženje - Internet je nenehno posodablja dnevno različne besedila, ki jih realno ustvarili uporabniki: to komentarje in ocene, in predmeti, in številne druge oblike govora.

Poleg tega sodeluje z organi prispeva k razvoju enako strojno opremo, ki so vključene v iskanje informacij, smo seznanjeni s storitvijo "Google" ali "Yandex", strojno prevajanje, elektronskih slovarjev.

Mi lahko z gotovostjo trditi, da je korpus jezikoslovje naredi le prve korake, in v bližnji prihodnosti bo zaživela.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sl.birmiss.com. Theme powered by WordPress.