Loģistiskā regresija: modelis un metodes

Satura rādītājs:

Loģistiskā regresija: modelis un metodes
Loģistiskā regresija: modelis un metodes
Anonim

Loģistiskās regresijas un diskriminantu analīzes metodes tiek izmantotas, ja nepieciešams skaidri nošķirt respondentus pēc mērķa kategorijām. Šajā gadījumā pašas grupas tiek attēlotas ar viena viena varianta parametra līmeņiem. Sīkāk apskatīsim loģistikas regresijas modeli un uzzināsim, kāpēc tas ir vajadzīgs.

loģistikas regresija
loģistikas regresija

Vispārīga informācija

Problēmas piemērs, kurā tiek izmantota loģistikas regresija, ir respondentu iedalīšana grupās, kas pērk un nepērk sinepes. Diferencēšana tiek veikta atbilstoši sociāli demogrāfiskajām iezīmēm. Tie jo īpaši ietver vecumu, dzimumu, radinieku skaitu, ienākumus utt. Darbībās ir diferencēšanas kritēriji un mainīgais. Pēdējais kodē mērķa kategorijas, kurās faktiski ir jāsadala respondenti.

Nianses

Jāsaka, ka loģistiskās regresijas piemērošanas gadījumu loks ir daudz šaurāks nekā diskriminantu analīzei. Šajā sakarā tiek apsvērta pēdējā kā universālas diferenciācijas metodes izmantošanavairāk vēlams. Turklāt eksperti iesaka sākt klasifikācijas pētījumus ar diskriminantu analīzi. Un tikai tad, ja nav skaidrības par rezultātiem, varat izmantot loģistikas regresiju. Šī vajadzība ir saistīta ar vairākiem faktoriem. Loģistisko regresiju izmanto, ja ir skaidra izpratne par neatkarīgo un atkarīgo mainīgo veidu. Attiecīgi tiek izvēlēta viena no 3 iespējamajām procedūrām. Diskriminanta analīzē pētnieks vienmēr nodarbojas ar vienu statisku darbību. Tas ietver vienu atkarīgu un vairākus neatkarīgus kategoriskos mainīgos ar jebkura veida skalu.

Skatījumi

Statistikas pētījuma, kurā tiek izmantota loģistiskā regresija, uzdevums ir noteikt varbūtību, ka konkrēts respondents tiks iedalīts konkrētai grupai. Diferencēšana tiek veikta pēc noteiktiem parametriem. Praksē pēc viena vai vairāku neatkarīgu faktoru vērtībām ir iespējams klasificēt respondentus divās grupās. Šajā gadījumā notiek binārā loģistiskā regresija. Arī norādītos parametrus var izmantot, sadalot grupās, kurās ir vairāk nekā divi. Šādā situācijā notiek multinomiāla loģistikas regresija. Iegūtās grupas ir izteiktas viena mainīgā līmeņos.

loģistikas regresija
loģistikas regresija

Piemērs

Pieņemsim, ka ir respondentu atbildes uz jautājumu, vai viņus interesē piedāvājums iegādāties zemes gabalu Maskavas forštatē. Iespējas ir "nē"un jā. Jānoskaidro, kādi faktori dominējošā ietekmē potenciālo pircēju lēmumu. Lai to izdarītu, respondentiem tiek uzdoti jautājumi par teritorijas infrastruktūru, attālumu līdz galvaspilsētai, objekta platību, dzīvojamās ēkas esamību / neesamību utt. Izmantojot bināro regresiju, ir iespējams sadalīt respondentus iedala divās grupās. Pirmajā tiks iekļauti tie, kurus interesē iegāde - potenciālie pircēji, bet otrajā attiecīgi tie, kurus šāds piedāvājums neinteresē. Katram respondentam papildus tiks aprēķināta varbūtība tikt iedalītam vienā vai citā kategorijā.

Salīdzinošie raksturlielumi

Atšķirība no divām iepriekš minētajām opcijām ir atšķirīgais grupu skaits un atkarīgo un neatkarīgo mainīgo veids. Binārajā regresijā, piemēram, tiek pētīta dihotoma faktora atkarība no viena vai vairākiem neatkarīgiem nosacījumiem. Turklāt pēdējam var būt jebkāda veida mērogs. Multinomiālā regresija tiek uzskatīta par šīs klasifikācijas iespējas variantu. Tajā pie atkarīgā mainīgā pieder vairāk nekā 2 grupas. Neatkarīgajiem faktoriem ir jābūt kārtas vai nominālajai skalai.

Loģistiskā regresija spss

Statistikas paketē 11-12 tika ieviesta jauna analīzes versija - kārtas. Šo metodi izmanto, ja atkarīgais faktors pieder pie viena nosaukuma (kārtas) skalas. Šajā gadījumā neatkarīgie mainīgie tiek atlasīti no viena noteikta veida. Tiem jābūt ordināliem vai nomināliem. Visvairāk tiek apsvērta klasifikācija vairākās kategorijāsuniversāls. Šo metodi var izmantot visos pētījumos, kuros izmanto loģistisko regresiju. Tomēr vienīgais veids, kā uzlabot modeļa kvalitāti, ir izmantot visas trīs metodes.

atbilstības kvalitātes pārbaude un loģistikas regresija
atbilstības kvalitātes pārbaude un loģistikas regresija

Kārtuma klasifikācija

Jāsaka, ka agrāk statistikas paketē nebija tipiskas iespējas veikt specializētu atkarīgo faktoru analīzi ar kārtas skalu. Visiem mainīgajiem ar vairāk nekā 2 grupām tika izmantots daudznominālais variants. Salīdzinoši nesen ieviestajai kārtas analīzei ir vairākas funkcijas. Tie ņem vērā skalas specifiku. Tikmēr mācību līdzekļos ordinālā loģistiskā regresija bieži netiek uzskatīta par atsevišķu paņēmienu. Tas ir saistīts ar sekojošo: kārtas analīzei nav būtisku priekšrocību salīdzinājumā ar multinomiālu. Pētnieks var izmantot pēdējo gan kārtas, gan nominālā atkarīgā mainīgā klātbūtnē. Tajā pašā laikā paši klasifikācijas procesi gandrīz neatšķiras viens no otra. Tas nozīmē, ka kārtas analīzes veikšana nesagādās nekādas grūtības.

Analīzes opcija

Apskatīsim vienkāršu gadījumu – bināro regresiju. Pieņemsim, ka mārketinga pētījuma procesā tiek novērtēts pieprasījums pēc noteiktas metropoles universitātes absolventiem. Anketā respondentiem tika uzdoti jautājumi, tostarp:

  1. Vai esat nodarbināts? (ql).
  2. Ievadiet absolvēšanas gadu (q 21).
  3. Kāds ir vidējais rādītājsizlaiduma rezultāts (vidēji).
  4. Dzimums (q22).

Loģistiskā regresija novērtēs neatkarīgo faktoru aver, q 21 un q 22 ietekmi uz mainīgo ql. Vienkārši sakot, analīzes mērķis būs noteikt absolventu iespējamo nodarbinātību, pamatojoties uz informāciju par jomu, absolvēšanas gadu un GPA.

loģistikas sigmoidās regresijas indikators
loģistikas sigmoidās regresijas indikators

Loģistiskā regresija

Lai iestatītu parametrus, izmantojot bināro regresiju, izmantojiet izvēlni Analīze►Regression►Binary Logistic. Logā Logistic Regression atlasiet atkarīgo faktoru no pieejamo mainīgo saraksta kreisajā pusē. Tas ir ql. Šis mainīgais ir jāievieto laukā Atkarīgais. Pēc tam kovariātu grafikā jāievada neatkarīgi faktori - q 21, q 22, vid. Pēc tam jums ir jāizvēlas, kā tos iekļaut analīzē. Ja neatkarīgo faktoru skaits ir lielāks par 2, tad tiek izmantota visu mainīgo vienlaicīgas ievadīšanas metode, kas ir iestatīta pēc noklusējuma, bet soli pa solim. Populārākais veids ir Backward:LR. Izmantojot pogu Atlasīt, pētījumā varat iekļaut ne visus respondentus, bet tikai konkrētu mērķa kategoriju.

Definēt kategoriskos mainīgos

Kategoriskā poga ir jāizmanto, ja viens no neatkarīgiem mainīgajiem ir nomināls ar vairāk nekā 2 kategorijām. Šajā situācijā logā Define Categorical Variables tieši šāds parametrs tiek ievietots sadaļā Kategoriskie kovariāti. Šajā piemērā šāda mainīgā nav. Pēc tam nolaižamajā sarakstā seko Kontrastsatlasiet vienumu Novirze un nospiediet pogu Mainīt. Rezultātā no katra nominālā faktora tiks izveidoti vairāki atkarīgi mainīgie. To skaits atbilst sākotnējā nosacījuma kategoriju skaitam.

Saglabāt jaunus mainīgos

Izmantojot pogu Saglabāt pētījuma galvenajā dialoglodziņā, tiek iestatīta jaunu parametru izveide. Tajos būs ietverti regresijas procesā aprēķinātie rādītāji. Jo īpaši varat izveidot mainīgos, kas definē:

  1. Piederība noteiktai klasifikācijas kategorijai (grupas dalība).
  2. Varbūtība, ka katrai pētījuma grupai tiks piešķirts respondents (varbūtības).

Izmantojot pogu Opcijas, pētnieks nesaņem nekādas nozīmīgas opcijas. Attiecīgi to var ignorēt. Pēc noklikšķināšanas uz pogas "OK", analīzes rezultāti tiks parādīti galvenajā logā.

loģistikas regresijas koeficients
loģistikas regresijas koeficients

Kvalitātes pārbaude attiecībā uz atbilstību un loģistikas regresiju

Apskatiet modeļa koeficientu tabulu Omnibus Testsof. Tas parāda modeļa aproksimācijas kvalitātes analīzes rezultātus. Sakarā ar to, ka tika iestatīta pakāpeniska opcija, jums jāaplūko pēdējā posma rezultāti (2. darbība). Pozitīvs rezultāts tiks uzskatīts, ja, pārejot uz nākamo posmu ar augstu nozīmīguma pakāpi, tiks konstatēts Hī kvadrāta indikatora pieaugums (Sig. < 0,05). Modeļa kvalitāte tiek novērtēta modeļu rindā. Ja ir iegūta negatīva vērtība, bet tā netiek uzskatīta par nozīmīgu ar modeļa augsto būtiskumu kopumā, pēdējaisvar uzskatīt par praktiski piemērotu.

Tabulas

Modeļa kopsavilkums ļauj novērtēt kopējo dispersijas indeksu, ko apraksta konstruētais modelis (R kvadrātveida indekss). Ieteicams izmantot Nagelker vērtību. Parametru Nagelkerke R Square var uzskatīt par pozitīvu rādītāju, ja tas ir virs 0,50. Pēc tam tiek izvērtēti klasifikācijas rezultāti, kuros faktiskie piederības vienai vai otrai pētāmajai kategorijai rādītāji tiek salīdzināti ar prognozētajiem, pamatojoties uz regresijas modeli. Šim nolūkam tiek izmantota klasifikācijas tabula. Tas arī ļauj izdarīt secinājumus par katras aplūkojamās grupas diferenciācijas pareizību.

loģistikas regresijas modelis
loģistikas regresijas modelis

Sekojošā tabula sniedz iespēju noskaidrot analīzē ievadīto neatkarīgo faktoru statistisko nozīmīgumu, kā arī katru nestandartizēto loģistiskās regresijas koeficientu. Pamatojoties uz šiem rādītājiem, ir iespējams prognozēt katra izlasē iekļautā respondenta piederību noteiktai grupai. Izmantojot pogu Saglabāt, varat ievadīt jaunus mainīgos. Tajos būs informācija par piederību noteiktai klasifikācijas kategorijai (Predictedcategory) un iespējamību tikt iekļautai šajās grupās (paredzamās varbūtības dalība). Pēc noklikšķināšanas uz "OK", aprēķinu rezultāti parādīsies Multinomial Logistic Regression galvenajā logā.

Pirmā tabula, kurā ir pētniekam svarīgi rādītāji, ir Modeļu pielāgošanas informācija. Augsts statistiskās nozīmīguma līmenis liecinātu par augstu kvalitāti unmodeļa izmantošanas piemērotība praktisko problēmu risināšanā. Vēl viena nozīmīga tabula ir Pseudo R-Square. Tas ļauj novērtēt kopējās dispersijas proporciju atkarīgajā faktorā, ko nosaka neatkarīgie mainīgie, kas atlasīti analīzei. Saskaņā ar iespējamības koeficienta testu tabulu mēs varam izdarīt secinājumus par pēdējo statistisko nozīmīgumu. Parametru aplēses atspoguļo nestandartizētus koeficientus. Tos izmanto vienādojuma veidošanā. Turklāt katrai mainīgo kombinācijai tika noteikta to ietekmes uz atkarīgo faktoru statistiskā nozīmība. Tikmēr mārketinga pētījumos nereti rodas nepieciešamība atšķirt respondentus pēc kategorijas nevis individuāli, bet gan kā daļu no mērķa grupas. Šim nolūkam tiek izmantota tabula Novērotās un paredzamās frekvences.

Praktisks pielietojums

Aplūkotā analīzes metode tiek plaši izmantota tirgotāju darbā. 1991. gadā tika izstrādāts loģistikas sigmoīdās regresijas rādītājs. Tas ir ērti lietojams un efektīvs rīks, lai prognozētu iespējamās cenas, pirms tās "pārkarst". Indikators diagrammā ir parādīts kā kanāls, ko veido divas paralēlas līnijas. Tie ir vienādā attālumā no tendences. Koridora platums būs atkarīgs tikai no laika grafika. Rādītājs tiek izmantots, strādājot ar gandrīz visiem aktīviem - no valūtu pāriem līdz dārgmetāliem.

loģistikas regresija spss
loģistikas regresija spss

Praksē ir izstrādātas 2 galvenās instrumenta izmantošanas stratēģijas: izlaušanās unpar pagriezienu. Pēdējā gadījumā tirgotājs koncentrēsies uz cenu izmaiņu dinamiku kanālā. Vērtībai tuvojoties atbalsta vai pretestības līnijai, tiek likta likme uz iespējamību, ka kustība sāksies pretējā virzienā. Ja cena tuvojas augšējai robežai, jūs varat atbrīvoties no aktīva. Ja tas ir pie apakšējās robežas, tad jādomā par iegādi. Izlaušanās stratēģija ietver pasūtījumu izmantošanu. Tie ir uzstādīti ārpus robežām salīdzinoši nelielā attālumā. Ņemot vērā, ka cena atsevišķos gadījumos tos pārkāpj uz īsu brīdi, jāspēlē droši un jānosaka stop loss. Tajā pašā laikā, protams, neatkarīgi no izvēlētās stratēģijas, tirgotājam ir nepieciešams pēc iespējas mierīgāk uztvert un izvērtēt situāciju, kas radusies tirgū.

Secinājums

Tādējādi loģistiskās regresijas izmantošana ļauj ātri un vienkārši klasificēt respondentus kategorijās pēc dotajiem parametriem. Analizējot, varat izmantot jebkuru konkrētu metodi. Jo īpaši daudznomu regresija ir universāla. Tomēr eksperti iesaka izmantot visas iepriekš aprakstītās metodes kombinācijā. Tas ir saistīts ar faktu, ka šajā gadījumā modeļa kvalitāte būs ievērojami augstāka. Tas savukārt paplašinās tā pielietojuma klāstu.

Ieteicams: