Daudzdimensiju mērogošana: definīcija, mērķi, uzdevumi un piemērs

Satura rādītājs:

Daudzdimensiju mērogošana: definīcija, mērķi, uzdevumi un piemērs
Daudzdimensiju mērogošana: definīcija, mērķi, uzdevumi un piemērs
Anonim

Daudzfaktoru mērogošana (MDS) ir rīks, lai vizualizētu atsevišķu gadījumu līdzības līmeni datu kopā. Tas attiecas uz saistītu ordinācijas metožu kopumu, ko izmanto informācijas vizualizācijā, jo īpaši, lai parādītu attāluma matricā ietverto informāciju. Tas ir nelineāras dimensijas samazināšanas veids. MDS algoritma mērķis ir novietot katru objektu N-dimensiju telpā tā, lai attālumi starp objektiem tiktu saglabāti pēc iespējas labāk. Pēc tam katram objektam tiek piešķirtas koordinātas katrā no N dimensijām.

MDS diagrammas izmēru skaits var pārsniegt 2, un tas ir norādīts a priori. Izvēloties N=2, tiek optimizēts objektu izvietojums 2D izkliedes diagrammā. Daudzdimensiju mērogošanas piemērus varat redzēt raksta attēlos. Piemēri ar simboliem krievu valodā ir īpaši ilustratīvi.

Daudzdimensiju mērogošana
Daudzdimensiju mērogošana

Essence

Daudzdimensiju mērogošanas metode (MMS,MDS) ir paplašināts klasisko rīku komplekts, kas vispārina optimizācijas procedūru zaudēšanas funkciju kopai un zināmu attālumu ievades matricām ar svariem un tā tālāk. Šajā kontekstā noderīgu zaudējumu funkciju sauc par stresu, ko bieži samazina ar procedūru, ko sauc par stresa majorizāciju.

Manuāli

Ir vairākas iespējas daudzdimensiju mērogošanai. MDS programmas automātiski samazina slodzi, lai iegūtu risinājumu. Nemetriskā MDS algoritma kodols ir divkāršs optimizācijas process. Pirmkārt, ir jāatrod optimālā monotoniskā tuvuma transformācija. Otrkārt, konfigurācijas punktiem jābūt optimāli novietotiem tā, lai to attālumi pēc iespējas tuvāk atbilstu mērogotajām tuvuma vērtībām.

Daudzdimensiju mērogošanas piemērs
Daudzdimensiju mērogošanas piemērs

Paplašināšana

Metriskās daudzdimensiju mērogošanas paplašinājums statistikā, kur mērķa telpa ir patvaļīga gluda ne-eiklida telpa. Kur atšķirības ir attālumi uz virsmas un mērķa telpa ir atšķirīga virsma. Tematiskās programmas ļauj atrast pielikumu ar minimālu vienas virsmas izkropļojumu citā.

Soļi

Ir vairākas darbības, veicot pētījumu, izmantojot daudzfaktoru mērogošanu:

  1. Problēmas formulējums. Kādus mainīgos vēlaties salīdzināt? Cik mainīgos vēlaties salīdzināt? Kādam nolūkam pētījums tiks izmantots?
  2. Notiek ievades datu iegūšana. Respondentiem tiek uzdota virkne jautājumu. Katram produktu pārim tiek lūgts novērtēt līdzību (parasti 7 ballu Likerta skalā no ļoti līdzīga līdz ļoti atšķirīgam). Pirmais jautājums varētu būt par Coca-Cola/Pepsi, piemēram, nākamais par alu, nākamais par Dr. Pepperu utt. Jautājumu skaits ir atkarīgs no zīmolu skaita.
Attāluma mērogošana
Attāluma mērogošana

Alternatīvas pieejas

Ir divas citas pieejas. Pastāv paņēmiens ar nosaukumu "Uztveres dati: atvasināta pieeja", kurā produkti tiek sadalīti atribūtos un novērtējums tiek veikts semantiskā diferenciālā skalā. Vēl viena metode ir “preferenču datu pieeja”, kurā respondentiem tiek jautāts par vēlmēm, nevis līdzībām.

Tas sastāv no šādām darbībām:

  1. MDS statistikas programmas palaišana. Programmatūra procedūras veikšanai ir pieejama daudzās statistikas programmatūras pakotnēs. Bieži vien ir iespēja izvēlēties starp metrisko PDS (kas attiecas uz intervālu vai attiecību līmeņa datiem) un nemetrisko PDS (kas attiecas uz kārtas datiem).
  2. Mērījumu skaita noteikšana. Pētniekam ir jānosaka mērījumu skaits, ko viņš vēlas izveidot datorā. Jo vairāk mērījumu, jo labāka ir statistikas atbilstība, bet jo grūtāk ir interpretēt rezultātus.
  3. Rādīt rezultātus un definēt mērījumus - statistikas programma (vai saistītais modulis) parādīs rezultātus. Kartē tiks parādīts katrs produkts (parasti 2D).telpa). Produktu tuvums viens otram norāda uz to līdzību vai izvēli atkarībā no izmantotās pieejas. Tomēr ne vienmēr ir skaidrs, kā mērījumi faktiski atbilst sistēmas uzvedības mērījumiem. Šeit var izdarīt subjektīvu spriedumu par atbilstību.
  4. Pārbaudiet rezultātu uzticamību un derīgumu - aprēķiniet R kvadrātu, lai noteiktu mērogotās datu dispersijas proporciju, ko var ņemt vērā ar MDS procedūru. Kvadrāts R 0,6 tiek uzskatīts par minimālo pieļaujamo līmeni. R kvadrātā 0,8 tiek uzskatīts par piemērotu metrikas mērogošanai, savukārt 0,9 - nemetriskajai mērogošanai.
Daudzfaktoru mērogošanas rezultāti
Daudzfaktoru mērogošanas rezultāti

Dažādi testi

Citas iespējamās pārbaudes ir Kruskal tipa stresa testi, dalīto datu testi, datu stabilitātes testi un atkārtotas pārbaudes uzticamības testi. Detalizēti rakstiet par testa rezultātiem. Kopā ar kartēšanu ir jānorāda vismaz attāluma mērs (piemēram, Sorensona indekss, Žakarda indekss) un uzticamība (piemēram, stresa vērtība).

Arī ļoti vēlams norādīt algoritmu (piem., Kruskal, Mather), ko bieži nosaka izmantotā programma (dažreiz aizstājot algoritma atskaiti), ja esat norādījis sākuma konfigurāciju vai nejauši izvēlējies numuru dimensiju darbības, Montekarlo rezultāti, iterāciju skaits, stabilitātes rādītājs un katras ass proporcionālā dispersija (r-kvadrāts).

Vizuālās informācijas un datu analīzes metodedaudzdimensiju mērogošana

Informācijas vizualizācija ir interaktīvu (vizuālu) abstraktu datu attēlojumu izpēte, lai uzlabotu cilvēka izziņu. Abstraktie dati ietver gan skaitliskus, gan neciparu datus, piemēram, teksta un ģeogrāfisko informāciju. Tomēr informācijas vizualizācija atšķiras no zinātniskās vizualizācijas: “tā ir informatīva (informācijas vizualizācija), kad tiek izvēlēts telpiskais attēlojums, un scivis (zinātniskā vizualizācija), kad tiek sniegts telpiskais attēlojums.”

Informācijas vizualizācijas joma radās cilvēka un datora mijiedarbības, datorzinātņu lietojumprogrammu, grafikas, vizuālā dizaina, psiholoģijas un biznesa metožu pētījumos. To arvien vairāk izmanto kā būtisku sastāvdaļu zinātniskajā izpētē, digitālajās bibliotēkās, datu ieguvē, finanšu datos, tirgus izpētē, ražošanas kontrolē un tā tālāk.

Metodes un principi

Informācijas vizualizācija liecina, ka vizualizācijas un mijiedarbības metodes izmanto cilvēka uztveres bagātības, ļaujot lietotājiem vienlaikus redzēt, izpētīt un saprast lielu informācijas apjomu. Informācijas vizualizācijas mērķis ir radīt pieejas abstraktu datu, informācijas paziņošanai intuitīvā veidā.

Krāsu daudzdimensiju mērogošana
Krāsu daudzdimensiju mērogošana

Datu analīze ir visu lietišķo pētījumu un problēmu risināšanas nozares neatņemama sastāvdaļa. Lielākā daļaDatu analīzes pamatpieejas ir vizualizācija (histogrammas, izkliedes diagrammas, virsmas diagrammas, koku kartes, paralēlās koordinātu diagrammas utt.), statistika (hipotēžu pārbaude, regresija, PCA utt.), datu analīze (saskaņošana utt.)..d.) un mašīnmācīšanās metodes (grupēšana, klasifikācija, lēmumu koki utt.).

Starp šīm pieejām informācijas vizualizācija vai vizuālo datu analīze ir visvairāk atkarīga no analītiskā personāla kognitīvajām prasmēm un ļauj atklāt nestrukturētus praktiskus ieskatus, ko ierobežo tikai cilvēka iztēle un radošums. Analītiķim nav jāapgūst nekādas sarežģītas metodes, lai varētu interpretēt datu vizualizācijas. Informācijas vizualizācija ir arī hipotēžu ģenerēšanas shēma, ko var un parasti pavada analītiskāka vai formālāka analīze, piemēram, statistiskā hipotēžu pārbaude.

Studē

Mūsdienu vizualizācijas studijas aizsākās ar datorgrafiku, kas no paša sākuma tika izmantota zinātnisku problēmu pētīšanai. Tomēr pirmajos gados grafikas jaudas trūkums bieži ierobežoja tās lietderību. Sākās prioritāte vizualizācijai. izstrādāt 1987. gadā, izlaižot īpašu programmatūru datorgrafikai un vizualizācijai zinātniskajā skaitļošanā Kopš tā laika ir notikušas vairākas konferences un semināri, ko kopīgi organizē IEEE Computer Society un ACM SIGGRAPH.

Tie aptvēra vispārīgās tēmas par datu vizualizāciju, informācijas vizualizāciju un zinātnisko vizualizāciju,kā arī specifiskākas jomas, piemēram, apjoma renderēšana.

Daudzdimensiju zīmola mērogošana
Daudzdimensiju zīmola mērogošana

Kopsavilkums

Ģeneralizētā daudzdimensiju mērogošana (GMDS) ir metriskās daudzdimensiju mērogošanas paplašinājums, kurā mērķa telpa nav eiklīda mērogošana. Ja atšķirības ir attālumi uz virsmas un mērķa telpa ir cita virsma, GMDS ļauj atrast vienas virsmas ligzdošanu citā ar minimāliem kropļojumiem.

GMDS ir jauns pētījumu virziens. Pašlaik galvenās lietojumprogrammas ir deformējamu objektu atpazīšana (piemēram, 3D sejas atpazīšanai) un tekstūras kartēšana.

Daudzdimensiju mērogošanas mērķis ir attēlot daudzdimensiju datus. Daudzdimensionālus datus, ti, datus, kuru attēlošanai nepieciešamas vairāk nekā divas vai trīs dimensijas, var būt grūti interpretēt. Viena no vienkāršošanas metodēm ir pieņemt, ka interesējošie dati atrodas iegultā nelineārā kolektorā augstas dimensijas telpā. Ja kolektoram ir pietiekami zema dimensija, datus var vizualizēt zemas dimensijas telpā.

Daudzas nelineārās dimensijas samazināšanas metodes ir saistītas ar lineārajām metodēm. Nelineārās metodes var plaši iedalīt divās grupās: tās, kas nodrošina kartēšanu (no augstas dimensijas telpas līdz zemas dimensijas iegulšanai, vai otrādi), un tās, kas vienkārši nodrošina vizualizāciju. Mašīnmācības kontekstā kartēšanas metodes var uzskatīt parpazīmju iegūšanas sākotnējais posms, pēc kura tiek piemēroti modeļa atpazīšanas algoritmi. Parasti tie, kas tikai sniedz vizualizācijas, ir balstīti uz tuvuma datiem - t.i., attāluma mērījumiem. Daudzdimensiju mērogošana ir diezgan izplatīta parādība arī psiholoģijā un citās humanitārajās zinātnēs.

Diagonālā daudzdimensiju mērogošana
Diagonālā daudzdimensiju mērogošana

Ja atribūtu skaits ir liels, tad arī unikālo iespējamo virkņu telpa ir eksponenciāli liela. Tādējādi, jo lielāks izmērs, jo grūtāk ir attēlot telpu. Tas rada daudz problēmu. Algoritmiem, kas darbojas ar augstas dimensijas datiem, parasti ir ļoti augsta laika sarežģītība. Datu samazināšana līdz mazākam izmēram bieži padara analīzes algoritmus efektīvākus un var palīdzēt mašīnmācīšanās algoritmiem veikt precīzākas prognozes. Tāpēc daudzdimensiju datu mērogošana ir tik populāra.

Ieteicams: