Statistiskā modelēšana: metodes, apraksts, pielietojums

Satura rādītājs:

Statistiskā modelēšana: metodes, apraksts, pielietojums
Statistiskā modelēšana: metodes, apraksts, pielietojums
Anonim

Statistikas modelēšanā ietvertie pieņēmumi apraksta varbūtības sadalījumu kopu, no kuriem daži tiek pieņemti, lai adekvāti tuvinātu sadalījumu. No definīcijas tiek atlasīta noteikta datu kopa. Statistiskajai modelēšanai raksturīgie varbūtības sadalījumi ir tie, kas atšķir statistiskos modeļus no citiem nestatistiskajiem matemātiskajiem modeļiem.

Image
Image

Savienojums ar matemātiku

Šī zinātniskā metode galvenokārt sakņojas matemātikā. Sistēmu statistiskā modelēšana parasti tiek sniegta ar matemātiskiem vienādojumiem, kas attiecas uz vienu vai vairākiem nejaušiem mainīgajiem un, iespējams, citiem nejaušiem mainīgajiem. Tādējādi statistikas modelis ir "formāls teorijas attēlojums" (Hermans Aders, citē Kenetu Bolenu).

Visi statistisko hipotēžu testi un visi statistiskie aprēķini ir iegūti no statistikas modeļiem. Vispārīgāk, statistikas modeļi ir daļa no statistikas secinājumu pamata.

Statistikas metodesmodelēšana

Neformāli statistikas modeli var uzskatīt par statistisku pieņēmumu (vai statistisko pieņēmumu kopu) ar noteiktu īpašību: šis pieņēmums ļauj aprēķināt jebkura notikuma iespējamību. Kā piemēru apsveriet parasto sešu malu kauliņu pāri. Mēs pētīsim divus dažādus statistikas pieņēmumus par kaulu.

Pirmais statistiskais pieņēmums veido statistisko modeli, jo tikai ar vienu pieņēmumu mēs varam aprēķināt jebkura notikuma varbūtību. Alternatīvais statistikas pieņēmums neveido statistisko modeli, jo tikai ar vienu pieņēmumu mēs nevaram aprēķināt katra notikuma varbūtību.

Tipisks statistikas modelis
Tipisks statistikas modelis

Iepriekš minētajā piemērā ar pirmo pieņēmumu ir viegli aprēķināt notikuma iespējamību. Tomēr dažos citos piemēros aprēķins var būt sarežģīts vai pat nepraktisks (piemēram, tas var prasīt miljoniem gadu ilgu aprēķinu). Pieņēmumam, kas veido statistisko modeli, šī grūtība ir pieņemama: aprēķina veikšanai nav jābūt praktiski iespējamai, tikai teorētiski iespējamai.

Modeļu piemēri

Pieņemsim, ka mums ir skolēni ar vienmērīgi sadalītiem bērniem. Bērna augums būs stohastiski saistīts ar vecumu: piemēram, ja mēs zinām, ka bērnam ir 7 gadi, tas ietekmē varbūtību, ka bērns būs 5 pēdas garš (apmēram 152 cm). Šo attiecību varētu formalizēt lineārās regresijas modelī, piemēram: izaugsme=b0 + b1agei+ εi, kur b0 ir krustpunkts, b1 ir parametrs, ar kuru vecumu reizina, iegūstot augšanas prognozi, εi ir kļūdas loceklis. Tas nozīmē, ka augums tiek prognozēts pēc vecuma ar zināmu kļūdu.

Derīgam modelim ir jāatbilst visiem datu punktiem. Tātad taisna līnija (heighti=b0 + b1agei) nevar būt vienādojums datu modelim, ja vien tā precīzi neatbilst visiem datu punktiem, t.i., visi datu punkti atrodas perfekti uz līnijas. Kļūdas termins εi ir jāiekļauj vienādojumā, lai modelis atbilstu visiem datu punktiem.

dzimumu statistika
dzimumu statistika

Lai izdarītu statistiskus secinājumus, vispirms ir jāpieņem daži εi varbūtības sadalījumi. Piemēram, mēs varam pieņemt, ka εi sadalījumi ir Gausa ar nulles vidējo. Šajā gadījumā modelim būs 3 parametri: b0, b1 un Gausa sadalījuma dispersija.

Vispārīgs apraksts

Statistikas modelis ir īpaša matemātiskā modeļa klase. Statistisko modeli no citiem matemātiskajiem modeļiem atšķir tas, ka tas nav deterministisks. To izmanto statistikas datu modelēšanai. Tādējādi statistikas modelī, kas definēts ar matemātiskiem vienādojumiem, dažiem mainīgajiem nav noteiktas vērtības, bet tiem ir varbūtības sadalījumi; tas ir, daži mainīgie ir stohastiski. Iepriekš minētajā piemērā ε ir stohastisks mainīgais; bez šī mainīgā modelis bijabūtu deterministisks.

Statistiskos modeļus bieži izmanto statistiskajā analīzē un modelēšanā, pat ja modelējamais fiziskais process ir deterministisks. Piemēram, monētu mešana principā ir deterministisks process; tomēr to parasti modelē kā stohastisku (izmantojot Bernulli procesu).

sasilšanas statistika
sasilšanas statistika

Parametriskie modeļi

Parametriskie modeļi ir visbiežāk izmantotie statistikas modeļi. Attiecībā uz daļēji parametriskiem un neparametriskiem modeļiem sers Deivids Kokss sacīja: "Tie parasti ietver mazāk pieņēmumu par sadalījuma struktūru un formu, bet parasti satur spēcīgus neatkarības pieņēmumus." Tāpat kā visi citi minētie modeļi, arī tie bieži tiek izmantoti matemātiskās modelēšanas statistiskajā metodē.

Daudzlīmeņu modeļi

Daudzlīmeņu modeļi (pazīstami arī kā hierarhiskie lineārie modeļi, ligzdotu datu modeļi, jauktie modeļi, nejaušības koeficienti, nejaušības efektu modeļi, izlases parametru modeļi vai sadalītie modeļi) ir statistikas parametru modeļi, kas atšķiras vairāk nekā vienā līmenī. Piemērs ir skolēnu sasniegumu modelis, kas satur metriku atsevišķiem skolēniem, kā arī metriku klasēm, kurās skolēni ir grupēti. Šos modeļus var uzskatīt par lineāro modeļu (jo īpaši lineārās regresijas) vispārinājumiem, lai gan tos var attiecināt arī uz nelineāriem modeļiem. Šie modeļi ir kļuvušidaudz populārāks, kad kļuva pieejama pietiekama skaitļošanas jauda un programmatūra.

Segmentu statistika
Segmentu statistika

Daudzlīmeņu modeļi ir īpaši piemēroti pētniecības projektiem, kuros dalībnieku dati ir sakārtoti vairāk nekā vienā līmenī (ti, ligzdoti dati). Analīzes vienības parasti ir indivīdi (zemākā līmenī), kas ir ligzdoti konteksta/apkopojuma vienībās (augstākā līmenī). Lai gan daudzlīmeņu modeļos zemākais datu līmenis parasti ir individuāls, var apsvērt arī atkārtotus indivīdu mērījumus. Tādējādi daudzlīmeņu modeļi nodrošina alternatīvu analīzes veidu vienfaktoru vai daudzfaktoru atkārtotu mērījumu analīzei. Var apsvērt individuālas atšķirības augšanas līknēs. Turklāt daudzlīmeņu modeļus var izmantot kā alternatīvu ANCOVA, kur atkarīgo mainīgo punktu skaitu koriģē kovariātiem (piemēram, individuālajām atšķirībām) pirms ārstēšanas atšķirību pārbaudes. Daudzlīmeņu modeļi spēj analizēt šos eksperimentus, neizmantojot vienotu regresijas slīpumu, ko pieprasa ANCOVA.

Daudzlīmeņu modeļus var izmantot datiem ar daudziem līmeņiem, lai gan visbiežāk tiek izmantoti divu līmeņu modeļi, un pārējā šī raksta daļa ir vērsta uz tiem. Atkarīgais mainīgais ir jāpārbauda zemākajā analīzes līmenī.

Atmosfēras spiediena grafiks
Atmosfēras spiediena grafiks

Modeļa izvēle

Modeļa izvēleir uzdevums veikt atlasi no kandidātu modeļu kopas, ņemot vērā datus, veicot statistiskās modelēšanas ietvaros. Vienkāršākajos gadījumos tiek ņemta vērā jau esoša datu kopa. Tomēr uzdevums var ietvert arī eksperimentu izstrādi, lai savāktie dati būtu labi piemēroti modeļa atlases uzdevumam. Ņemot vērā kandidātu modeļus ar līdzīgu prognozēšanas vai izskaidrošanas spēku, visvienkāršākais modelis, visticamāk, būs labākā izvēle (Occam skuveklis).

Konishi & Kitagawa saka: "Lielāko daļu statistikas secinājumu problēmu var uzskatīt par problēmām, kas saistītas ar statistisko modelēšanu." Līdzīgi Kokss teica: "Tas, kā tiek veikta priekšmeta tulkošana statistikas modelī, bieži vien ir vissvarīgākā analīzes daļa."

Modeļu atlase var attiekties arī uz problēmu, kas saistīta ar dažu reprezentatīvu modeļu atlasi no liela skaitļošanas modeļu kopuma, lai pieņemtu lēmumus vai optimizētu nenoteiktības apstākļos.

Grafiskie raksti

Grafiskais modelis jeb varbūtības grafiskais modelis (PGM) vai strukturētais varbūtības modelis ir varbūtības modelis, kuram grafiks izsaka nosacītās attiecības struktūru starp nejaušiem mainīgajiem. Tos parasti izmanto varbūtību teorijā, statistikā (īpaši Beijesa statistikā) un mašīnmācībā.

Statistiskais modelis ar grafiku
Statistiskais modelis ar grafiku

Ekonometriskie modeļi

Ekonometriskie modeļi ir statistikas modeļi, ko izmantoekonometrija. Ekonometriskais modelis definē statistiskās sakarības, kas, domājams, pastāv starp dažādiem ekonomiskiem lielumiem, kas saistīti ar konkrētu ekonomikas parādību. Ekonometrisko modeli var iegūt no deterministiska ekonomikas modeļa, kas ņem vērā nenoteiktību, vai no ekonomikas modeļa, kas pats par sevi ir stohastisks. Tomēr ir iespējams izmantot arī ekonometriskos modeļus, kas nav saistīti ar kādu konkrētu ekonomikas teoriju.

Ieteicams: