Biežuma teksta analīze: līdzekļi un piemēri

Satura rādītājs:

Biežuma teksta analīze: līdzekļi un piemēri
Biežuma teksta analīze: līdzekļi un piemēri
Anonim

Ar šo jēdzienu savā dzīvē esat ticies ne reizi vien, ja nācies strādāt ar tekstiem. Jo īpaši varat vērsties pie tiešsaistes kalkulatoriem, kas precīzi veic teksta biežuma analīzi. Šie ērtie rīki parāda, cik reižu konkrēta rakstzīme vai burts tiek izmantots kādā teksta fragmentā. Bieži tiek parādīts arī procents. Kāpēc tas ir vajadzīgs? Kā teksta biežuma analīze veicina vienkāršu šifru "uzlauzšanu"? Kāda ir tā būtība, kas to izgudroja? Uz šiem un citiem svarīgiem jautājumiem par tēmu atbildēsim raksta gaitā.

Definīcija

Frekvenču analīze ir viens no kriptanalīzes veidiem. Tas ir balstīts uz zinātnieku pieņēmumu par atsevišķu rakstzīmju un to regulāro secību statistiski netriviālu sadalījumu gan vienkāršā, gan šifrētā tekstā.

Tiek uzskatīts, ka šāds sadalījums līdz atsevišķu rakstzīmju aizstāšanai tiks saglabāts arī šifrēšanas/atšifrēšanas procesos.

sistēmu frekvences analīze
sistēmu frekvences analīze

Procesa raksturlielums

Tagad aplūkosim biežuma analīzi vienkāršā izteiksmē. Tas nozīmē, ka viena un tā paša alfabēta rakstzīmes gadījumu skaits pietiekami garos tekstos ir vienāds dažādos tekstos, kas rakstīti vienā valodā.

Un kā tagad ir ar monoalfabētisko šifrēšanu? Tiek pieņemts, ka, ja sadaļā ar šifrētu tekstu ir rakstzīme ar tik līdzīgu sastopamības iespējamību, tad ir reāli pieņemt, ka tas ir šis šifrētais burts.

Biežuma teksta analīzes sekotāji izmanto to pašu argumentāciju digrammām (divu burtu secībām). Trigrammas - tas attiecas uz jau daudz alfabētiskajiem šifriem.

Metodes vēsture

Vārdu biežuma analīze nav mūsdienīguma atradums. Zinātniskajai pasaulei tas ir zināms kopš 9. gadsimta. Tās izveide ir saistīta ar vārdu Al-Kindi.

Bet zināmie frekvenču analīzes metodes pielietošanas gadījumi pieder daudz vēlākam periodam. Visspilgtākais piemērs šeit ir ēģiptiešu hieroglifu atšifrējums, ko 1822. gadā izstrādāja Dž. Champollion.

Ja mēs pievēršamies daiļliteratūrai, mēs varam atrast daudzas interesantas atsauces uz šo atšifrēšanas metodi:

  • Konans Doils - "The Dancing Men".
  • Žuls Verns - "Kapteiņa Granta bērni".
  • Edgars Po - "Zelta bug".

Tomēr kopš pagājušā gadsimta vidus lielākā daļa šifrēšanā izmantoto algoritmu ir izstrādāti, ņemot vērā to izturību pret šādu frekvenču kriptonalīzi. Tāpēc tāmūsdienās tos visbiežāk izmanto tikai topošo kriptogrāfu apmācībai.

teksta biežuma analīze
teksta biežuma analīze

Pamatmetode

Tagad detalizēti iepazīstināsim ar frekvences reakcijas analīzi. Šāda veida analīze ir tieši balstīta uz to, ka tests sastāv no vārdiem, bet tie, savukārt, no burtiem. Burtu skaits, kas aizpilda valsts alfabētu, ir ierobežots. Burtus var vienkārši uzskaitīt šeit.

Šāda teksta svarīgākie raksturlielumi būs gan burtu, dažādu lielgrammu, trigrammu un n-gramu atkārtošanās, gan dažādu burtu savietojamība savā starpā, līdzskaņu/patskaņu mija u.c. šo simbolu šķirnes.

Metožu galvenā ideja ir saskaitīt iespējamos n-gramus (apzīmē ar nm) vienkāršajos tekstos, kas ir pietiekami ilgi analīzei (apzīmē ar T=t1t2…tl), kas sastāv no nacionālā alfabēta burtiem (apzīmē ar {a1, a2, …, an}). Viss iepriekš minētais izraisa dažus secīgus teksta m-gramus:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ja tas ir m-grama ai1ai2…mērķa sastopamību skaits noteiktā tekstā T, un L ir kopējais pētnieka analizēto m-gramu skaits, tad ir iespējams empīriski konstatēt, ka pietiekami liels L, frekvences šādam m-gramam nedaudz atšķirsies viena no otras.

frekvences analīze
frekvences analīze

Bieži sastopamie krievu alfabēta burti

Bet laika un biežuma analīzei, neskatoties uz līdzīgo nosaukumu, nav nekā kopīga ar mūsu sarunas tēmu. Šāda veida analīze tiek veikta, laisignāli no vāji novērojamām radara stacijām, izmantojot īpašu viļņu transformāciju.

Tagad atgriezīsimies pie galvenās tēmas. Veicot biežuma analīzi, varat uzzināt, kuri krievu alfabēta burti visbiežāk sastopami diezgan apjomīgos tekstos (procentos no 0,062 līdz 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Ir ieviests pat īpašs mnemoniskais likums, kas palīdz apgūt izplatītākos krievu alfabēta burtus. Lai to izdarītu, pietiek atcerēties tikai vienu vārdu - "siena novietne".

Vispārējos gadījumos burtu lietošanas biežums procentos tiek noteikts vienkārši: speciālists saskaita, cik reižu burts parādās tekstā, pēc tam iegūto vērtību dala ar kopējo rakstzīmju skaitu tekstā. Un, lai izteiktu šo vērtību procentos, pietiek to reizināt ar 100.

Ir svarīgi ņemt vērā, ka biežums būs atkarīgs ne tikai no teksta apjoma, bet arī no tā rakstura. Piemēram, tehniskajos avotos burts "F" parādās daudz biežāk nekā daiļliteratūrā. Tāpēc objektīvam rezultātam speciālistam pētniecībai jādrukā dažāda rakstura un stila teksti.

teksta biežuma analīzes programmas
teksta biežuma analīzes programmas

Bi-, trīs-, četri grami

Jēgpilnajos tekstos var atrast arī izplatītāko (respektīvi, visvairākatkārtotas) divu vai vairāku burtu kombinācijas. Speciālisti ir sastādījuši arī vairākas tabulas, kurās norādītas dažādu alfabētu līdzīgu digrammu biežums.

Krievu valodā apjomīgu jēgpilnu tekstu sistēmu frekvenču analīze ļāva noteikt izplatītākās bigrammas un trigrammas:

  • EN.
  • ST.
  • BET.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • JAUNS
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Vēlamās burtu attiecības savā starpā

Un šīs nav visas iespējas, ko frekvenču analīze var sniegt teksta pētniekiem. Sistematizējot informāciju no līdzīgām bigrammu un trigrammu tabulām, iespējams iegūt datus par izplatītākajām burtu kombinācijām. Vai, citiem vārdiem sakot, viņu vēlamās attiecības savā starpā.

Tik plašu pētījumu eksperti jau ir veikuši. Tā rezultāts bija tabula, kurā kopā ar katru alfabēta burtu tika norādīti tā kaimiņi. Turklāt tie varoņi, kas bieži sastopami gan tieši pirms tā, gan pēc tā. Burti tabulā nav izrakstīti nejauši. Tuvāk simbolam norādīti biežākie kaimiņi, tālāk - retāk.

Apsveriet piemērus:

  • Burts "A". Šeit tiek izdalīti šādi vēlamie savienojumi: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. No šejienes mēs redzam, ka visbiežāk tekstos pirms "A" ir "H" ("NA"). Un aiz "A" visbiežāk tekstos krievu valodā varam sastapt "L"("AL").
  • Burts "M". Eksperti ir identificējuši šādus vēlamos savienojumus: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Burts "b". Vēlamie savienojumi ir šādi: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Burts "Sh". Vēlamie savienojumi: "e-b-a-i-u-Sch-e-i-a".
  • Burts "P". Vēlamie savienojumi ar šo krievu alfabēta simbolu: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
laika frekvences analīze
laika frekvences analīze

Kas nosaka analīzi?

Mūsdienu frekvenču teksta analīzes programmas palīdz izpētīt lielu daudzumu dažādu rakstu, eseju, fragmentu un tā tālāk. Standartā pētniekam tiek sniegta šāda informācija:

  • Kopējais rakstzīmju skaits tekstā.
  • Autora izmantoto vietu skaits.
  • Ciparu skaits.
  • Informācija par izmantotajām pieturzīmēm - punktiem, komatiem utt.
  • Burtu skaits katrā no pieejamajiem alfabētiem - kirilica, latīņu utt.
  • Informācija par katra burta un simbola lietošanas biežumu tekstā - pieminējumu skaits un procenti, salīdzinot ar visu tekstu.

Cīņa pret pārmērīgu optimizāciju un pārsātinājumu

Kāpēc tiek veikta teksta biežuma analīze? Vai tas ir tikai ziņkārības nolūkos - lai noskaidrotu, kuri rakstzīmes rakstītajā tekstā izrādījās bieži sastopami? Nē, galvenais analīzes pielietojums ir praktisks, un tas ir citur.

N-grami ietver ne tikai stabilus lielumus un trigrammus. Uz to pašukategorijas ietver atslēgvārdus (birkas), kolokācijas. Tas ir, stabilas kombinācijas, kas sastāv no diviem vai vairākiem vārdiem. Tās izceļas ar to, ka šādas kompozīcijas tekstā sastopamas kopā un tajā pašā laikā nes noteiktu semantisko slodzi.

Tas ir negodīgu SEO speciālistu rokās. Savā darbā viņi dažreiz ļaunprātīgi izmanto tagu un atslēgvārdu atkārtošanos tekstā, lai mākslīgi palielinātu konkrētas tīmekļa lapas atbilstību. Sistēmu mēģina apmānīt ar šādu "triku": pārvēršot dabisku kombināciju ar parasto, krievu valodai tradicionālo vārdu salikumu ("nopirkt ūdeles kažoku") par nekonsekventu. Tas ir, iegūts, pārkārtojot vārdus tādā dabiskā N-grammā ("nopirkt ūdeles kažoku").

Taču mūsdienās meklēšanas algoritmi ir iemācījušies atklāt pārmērīgu optimizāciju tikpat efektīvi kā pārmērīgu surogātpastu – teksta pārsātinājumu ar atslēgvārdiem, tagiem, kas ietekmē rezultātu ranžēšanu meklēšanas lapā. Gluži pretēji, pārāk optimizētas lapas pēc lietotāja vaicājuma ir ierindotas zemāk. Un cilvēki paši nemēdz lasīt bezjēdzīgu, ar tagu pārsātinātu tekstu, dodot priekšroku noderīgai informācijai citā resursā.

frekvences analīzes metode
frekvences analīzes metode

Palīdzība privātai analīzei SEO speciālistiem

Līdz ar to mūsdienu meklētājprogrammu teksta filtri mūsdienās dod priekšroku tām interneta lapām, kurās informācija ir ne tikai viegli lasāma, bet arī noderīga apmeklētājiem. Lai optimizētu savu darbu jauniem standartiem, SEO speciālistiun pievērsieties teksta biežuma analīzei. Mūsdienās to nodrošina daudzi populāri pakalpojumi.

Biežuma analīze palīdz informatīvuma nolūkos pārskatīt publicēšanai gatavoto tekstu. Novērsiet nevajadzīgu atzīmju un atslēgu frāžu dublēšanos. Tas arī ļauj pievērst autora uzmanību nedabiskām vārdu salikumiem, kas rada aizdomas meklētājprogrammu teksta filtros.

frekvences reakcijas analīze
frekvences reakcijas analīze

Teksta biežuma analīze tādējādi palīdz noteikt konkrētas rakstzīmes pieminēšanas biežumu avotā. Šo metodi mūsdienās izmanto, lai novērtētu teksta pārslodzi ar tagiem, nedabiskām vārdu permutācijām.

Ieteicams: