Statistikas modelis: metodes būtība, konstrukcija un analīze

Satura rādītājs:

Statistikas modelis: metodes būtība, konstrukcija un analīze
Statistikas modelis: metodes būtība, konstrukcija un analīze
Anonim

Statistikas modelis ir matemātiska projekcija, kas ietver dažādu pieņēmumu kopu par dažu izlases datu ģenerēšanu. Termins bieži tiek pasniegts daudz idealizētā formā.

Statistikas modelī izteiktie pieņēmumi parāda varbūtības sadalījumu kopu. Daudzi no tiem ir paredzēti, lai pareizi tuvinātu sadalījumu, no kura tiek iegūta noteikta informācijas kopa. Statistikas modeļiem raksturīgie varbūtības sadalījumi ir tie, kas atšķir projekciju no citām matemātiskām modifikācijām.

Vispārējā projekcija

statistisko procesu modeļi
statistisko procesu modeļi

Matemātiskais modelis ir sistēmas apraksts, izmantojot noteiktus jēdzienus un valodu. Tie attiecas uz dabaszinātnēm (piemēram, fiziku, bioloģiju, zemes zinātni, ķīmiju) un inženierzinātņu disciplīnām (piemēram, datorzinātnēm, elektroinženierzinātnēm), kā arī sociālajām zinātnēm (piemēram, ekonomiku, psiholoģiju, socioloģiju, politikas zinātni).

Modelis var palīdzēt izskaidrot sistēmu unizpētīt dažādu komponentu ietekmi un prognozēt uzvedību.

Matemātiskiem modeļiem var būt dažādi veidi, tostarp dinamiskās sistēmas, statistiskās projekcijas, diferenciālvienādojumi vai spēļu teorētiskie parametri. Šie un citi veidi var pārklāties, un šis modelis ietver daudzas abstraktas struktūras. Kopumā matemātiskās projekcijas var ietvert arī loģiskās sastāvdaļas. Daudzos gadījumos zinātnes nozares kvalitāte ir atkarīga no tā, cik teorētiski izstrādātie matemātiskie modeļi saskan ar atkārtotu eksperimentu rezultātiem. Saskaņas trūkums starp teorētiskajiem procesiem un eksperimentālajiem mērījumiem bieži vien noved pie svarīgiem sasniegumiem, jo tiek izstrādātas labākas teorijas.

Fizikālajās zinātnēs tradicionālais matemātiskais modelis satur lielu skaitu šādu elementu:

  • Vadības vienādojumi.
  • Papildu apakšmodeļi.
  • Definējiet vienādojumus.
  • Sastāvvienādojumi.
  • Pieņēmumi un ierobežojumi.
  • Sākotnējie un robežnosacījumi.
  • Klasiskie ierobežojumi un kinemātiskie vienādojumi.

Formula

Statistisko modeli parasti nosaka matemātiski vienādojumi, kas apvieno vienu vai vairākus gadījuma lielumus un, iespējams, citus dabā sastopamus mainīgos. Tāpat projekcija tiek uzskatīta par "formālo koncepcijas jēdzienu".

Visa statistisko hipotēžu pārbaude un statistiskie novērtējumi tiek iegūti no matemātiskiem modeļiem.

Ievads

statistiskie matemātiskie modeļi
statistiskie matemātiskie modeļi

Neformāli statistikas modeli var uzskatīt par pieņēmumu (vai pieņēmumu kopu) ar noteiktu īpašību: tas ļauj aprēķināt jebkura notikuma iespējamību. Kā piemēru apsveriet parasto sešu malu kauliņu pāri. Ir jāizpēta divi dažādi statistikas pieņēmumi par kaulu.

Pirmais pieņēmums ir:

Katram kauliņam varbūtība iegūt vienu no skaitļiem (1, 2, 3, 4, 5 un 6) ir: 1/6.

No šī pieņēmuma mēs varam aprēķināt abu kauliņu varbūtību: 1:1/6×1/6=1/36.

Vispārīgāk, jūs varat aprēķināt jebkura notikuma iespējamību. Tomēr jāsaprot, ka nav iespējams aprēķināt jebkura cita nenozīmīga notikuma iespējamību.

Tikai pirmais atzinums apkopo statistisko matemātisko modeli: sakarā ar to, ka tikai ar vienu pieņēmumu ir iespējams noteikt katras darbības varbūtību.

Iepriekš minētajā paraugā ar sākotnējo atļauju ir viegli noteikt notikuma iespējamību. Izmantojot dažus citus piemērus, aprēķins var būt sarežģīts vai pat nereāls (piemēram, tas var prasīt daudzu gadu aprēķinus). Personai, kas izstrādā statistiskās analīzes modeli, šāda sarežģītība tiek uzskatīta par nepieņemamu: aprēķinu veikšana nedrīkst būt praktiski neiespējama un teorētiski neiespējama.

Formālā definīcija

Matemātiskā izteiksmē sistēmas statistisko modeli parasti uzskata par pāri (S, P), kur S iriespējamo novērojumu kopa, t.i., izlases telpa, un P ir varbūtības sadalījumu kopa S.

Šīs definīcijas intuīcija ir šāda. Tiek pieņemts, ka pastāv "patiesais" varbūtības sadalījums, ko izraisa process, kas ģenerē noteiktus datus.

Iestatījums

Tas ir tas, kurš nosaka modeļa parametrus. Parametrēšanai parasti ir vajadzīgas dažādas vērtības, lai iegūtu dažādus sadalījumus, t.i.,

Modeļa sekas
Modeļa sekas

jātur (citiem vārdiem sakot, tam jābūt injicējamam). Tiek uzskatīts, ka parametri, kas atbilst prasībai, ir identificējami.

Piemērs

Statistikas grafiks
Statistikas grafiks

Pieņemsim, ka ir zināms skaits dažāda vecuma skolēnu. Bērna augums būs stohastiski saistīts ar dzimšanas gadu: piemēram, kad skolēnam ir 7 gadi, tas ietekmē augšanas varbūtību, tikai tā, ka cilvēks būs garāks par 3 centimetriem.

Šo pieeju varat formalizēt taisnās līnijas regresijas modelī, piemēram, šādi: augstums i=b 0 + b 1agei + εi, kur b 0 ir krustpunkts, b 1 ir parametrs, pēc kura vecuma. tiek reizināts, iegūstot augstuma monitoringu. Šis ir kļūdas termins. Tas nozīmē, ka tiek pieņemts, ka augums tiek prognozēts pēc vecuma ar noteiktu kļūdu.

Derīgai veidlapai ir jāatbilst visiem informācijas punktiem. Tādējādi taisnais virziens (līmenis i=b 0 + b 1agei) nevar būt vienādojums datu modelim, ja tas nepārprotami neatbild absolūti visiem punktiem. T.ibez izņēmuma visa informācija ir nevainojami pieejama. Kļūdas robeža εi ir jāievada vienādojumā, lai veidlapa atbilstu pilnīgi visiem informācijas elementiem.

Lai izdarītu statistiskus secinājumus, vispirms ir jāpieņem daži varbūtības sadalījumi ε i. Piemēram, var pieņemt, ka ε i sadalījumiem ir Gausa forma ar nulles vidējo. Šajā gadījumā modelim būs 3 parametri: b 0, b 1 un Gausa sadalījuma dispersija.

Varat formāli norādīt modeli kā (S, P).

Šajā piemērā modelis ir definēts, norādot S, un tāpēc par P var izdarīt dažus pieņēmumus. Ir divas iespējas:

Šo pieaugumu var tuvināt ar vecuma lineāru funkciju;

Ka aproksimācijas kļūdas tiek sadalītas kā Gausa sistēmā.

Vispārīgas piezīmes

Modeļu statistiskie parametri ir īpaša matemātiskās projekcijas klase. Ar ko viena suga atšķiras no citas? Tātad statistikas modelis nav deterministisks. Tādējādi tajā, atšķirībā no matemātiskajiem vienādojumiem, noteiktiem mainīgajiem nav noteiktas vērtības, bet tiem ir iespēju sadalījums. Tas nozīmē, ka atsevišķi mainīgie tiek uzskatīti par stohastiskiem. Iepriekš minētajā piemērā ε ir stohastisks mainīgais. Bez tā projekcija būtu deterministiska.

Bieži tiek izmantota statistikas modeļa izveide, pat ja materiālais process tiek uzskatīts par deterministisku. Piemēram, monētu mešana principā ir iepriekš noteikta darbība. Tomēr vairumā gadījumu tas joprojām tiek modelēts kā stohastisks (izmantojot Bernulli procesu).

Saskaņā ar Konishi un Kitagawa teikto, statistikas modelim ir trīs mērķi:

  • Prognozes.
  • Informācijas ieguve.
  • Stohastisko struktūru apraksts.

Projekcijas izmērs

Pieņemsim, ka pastāv statistikas prognozēšanas modelis, Modeli sauc par parametru, ja O ir ierobežota dimensija. Risinājumā jums jāieraksta, ka

Modeļu atšķirība
Modeļu atšķirība

kur k ir pozitīvs vesels skaitlis (R apzīmē jebkurus reālus skaitļus). Šeit k sauc par modeļa izmēru.

Piemēram, mēs varam pieņemt, ka visi dati nāk no vienfaktora Gausa sadalījuma:

Statistikas formula
Statistikas formula

Šajā piemērā k dimensija ir 2.

Un kā vēl vienu piemēru var pieņemt, ka dati sastāv no (x, y) punktiem, kas tiek pieņemti, ka tie ir sadalīti taisnā līnijā ar Gausa atlikumiem (ar nulles vidējo vērtību). Tad statistiskā ekonomiskā modeļa dimensija ir vienāda ar 3: taisnes krustpunkts, tās slīpums un atlikumu sadalījuma dispersija. Jāņem vērā, ka ģeometrijā taisnas līnijas izmērs ir 1.

Lai gan iepriekš minētā vērtība ir tehniski vienīgais parametrs, kam ir dimensija k, dažreiz tiek uzskatīts, ka tajā ir ietvertas k atšķirīgas vērtības. Piemēram, ar viendimensionālu Gausa sadalījumu O ir vienīgais parametrs, kura izmērs ir 2, bet dažreiz tiek uzskatīts, ka tas satur divusindividuālais parametrs - vidējā vērtība un standartnovirze.

Statistikas procesa modelis ir neparametrisks, ja O vērtību kopa ir bezgalīga. Tas ir arī daļēji parametrisks, ja tam ir gan galīgi, gan bezgalīgas dimensijas parametri. Formāli, ja k ir O dimensija un n ir paraugu skaits, pusparametriskiem un neparametriskiem modeļiem ir

Modeļa formula
Modeļa formula

tad modelis ir daļēji parametrisks. Pretējā gadījumā projekcija nav parametriska.

Parametriskie modeļi ir visbiežāk izmantotā statistika. Attiecībā uz pusparametriskām un neparametriskām projekcijām sers Deivids Kokss teica:

"Parasti tajos ir ietverts vismazāk hipotēžu par tekstūru un sadalījuma formu, taču tās ietver spēcīgas teorijas par pašpietiekamību."

Nested modeļi

Nejauciet tos ar daudzlīmeņu projekcijām.

Divi statistikas modeļi ir ligzdoti, ja pirmo var pārveidot par otro, uzliekot ierobežojumus pirmā parametriem. Piemēram, visu Gausa sadalījumu kopai ir ligzdota nulles vidējo sadalījumu kopa:

Tas ir, jums ir jāierobežo vidējais lielums visu Gausa sadalījumu kopā, lai iegūtu sadalījumus ar nulles vidējo. Kā otro piemēru kvadrātveida modelim y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ir iegults lineārais modelis y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - t.i., parametrs b2 ir vienāds ar 0.

Abos šajos piemēros pirmajam modelim ir lielāka dimensija nekā otrajam modelim. Tas notiek bieži, bet ne vienmēr. Vēl viens piemērs ir Gausa sadalījumu kopa ar pozitīvu vidējo, kuras dimensija ir 2.

Modeļu salīdzinājums

statistiskais modelis
statistiskais modelis

Tiek pieņemts, ka novēroto datu pamatā ir "patiesais" varbūtības sadalījums, ko izraisījis process, kas tos ģenerēja.

Un arī modeļus var salīdzināt savā starpā, izmantojot pētniecisko analīzi vai apstiprinošu. Izpētes analīzē tiek formulēti dažādi modeļi un tiek novērtēts, cik labi katrs no tiem apraksta datus. Apstiprinošā analīzē iepriekš formulētā hipotēze tiek salīdzināta ar sākotnējo. Parastie kritēriji ir P 2, Bajesa koeficients un relatīvā varbūtība.

Konishi un Kitagavas doma

“Lielāko daļu statistikas matemātiskā modeļa problēmu var uzskatīt par prognozējamiem jautājumiem. Tie parasti tiek formulēti kā vairāku faktoru salīdzinājumi.”

Turklāt sers Deivids Kokss teica: "Tulkojumā no tēmas statistikas modeļa problēma bieži vien ir vissvarīgākā analīzes daļa."

Ieteicams: