Datu ieguve ir Jēdziens, algoritmu analīze, mērķis un pielietojums

Satura rādītājs:

Datu ieguve ir Jēdziens, algoritmu analīze, mērķis un pielietojums
Datu ieguve ir Jēdziens, algoritmu analīze, mērķis un pielietojums
Anonim

Informācijas tehnoloģiju attīstība nes praktiskus rezultātus. Taču tādi uzdevumi kā informācijas atrašana, analīze un izmantošana vēl nav saņēmuši efektīvu augstas kvalitātes rīku. Ir analīzes un kvantitatīvie rīki, tie patiešām darbojas. Taču kvalitatīva revolūcija informācijas izmantošanā vēl nav notikusi.

Ilgi pirms datortehnoloģiju parādīšanās cilvēkam bija jāapstrādā liels informācijas apjoms, un viņš ar to tika galā, izmantojot savu pieredzi un pieejamās tehniskās iespējas.

Zināšanu un prasmju pilnveidošana vienmēr ir apmierinājusi reālās vajadzības un atbildusi aktuālajiem uzdevumiem. Datu ieguve ir kolektīvs nosaukums, ko izmanto, lai apzīmētu metožu kopumu, lai datos atklātu iepriekš nezināmas, netriviālas, praktiski noderīgas un pieejamas zināšanas, kas nepieciešamas lēmumu pieņemšanai dažādās cilvēka darbības jomās.

Cilvēks, intelekts, programmēšana

Cilvēks vienmēr zina, kā rīkoties jebkurā situācijā. Neziņa vai nepazīstama situācija viņam netraucē pieņemt lēmumu. Jebkura cilvēka lēmuma objektivitāti un pamatotību var apšaubīt, taču tas tiks pieņemts.

Inteliģence balstās uz: iedzimtu "mehānismu", iegūtām, aktīvām zināšanām. Zināšanas tiek izmantotas, lai atrisinātu problēmas, kas rodas cilvēka priekšā.

  1. Inteliģence ir unikāls zināšanu un prasmju kopums: iespējas un pamats cilvēka dzīvei un darbam.
  2. Inteliģence nepārtraukti attīstās, un cilvēku darbības ietekmē citus cilvēkus.

Programmēšana ir pirmais mēģinājums formalizēt datu attēlojumu un algoritmu veidošanas procesu.

Cilvēks, intelekts, programmēšana
Cilvēks, intelekts, programmēšana

Mākslīgais intelekts (AI) ir laika un resursu izšķiešana, bet pagājušā gadsimta neveiksmīgo mēģinājumu rezultāti AI jomā palika atmiņā, tika izmantoti dažādās ekspertu (inteliģentās) sistēmās un tika pārveidoti, jo īpaši algoritmos (noteikumos) un matemātiskajā (loģiskajā) datu analīzē un datu ieguvē.

Informācija un parastā risinājuma meklēšana

Parasta bibliotēka ir zināšanu krātuve, un drukātais vārds un grafika vēl nav atdevuši plaukstu datortehnoloģijām. Vienmēr aktuālas un uzticamas ir grāmatas par fiziku, ķīmiju, teorētisko mehāniku, dizainu, dabas vēsturi, filozofiju, dabaszinātnēm, botāniku, mācību grāmatas, monogrāfijas, zinātnieku darbi, konferenču materiāli, ziņojumi par izstrādes darbu utt.

Bibliotēkā ir daudz dažādu avotu, kas atšķirasmateriāla pasniegšanas forma, izcelsme, struktūra, saturs, prezentācijas stils utt.

Bibliotēka: grāmatas, žurnāli un citi iespieddarbi
Bibliotēka: grāmatas, žurnāli un citi iespieddarbi

Ārēji viss ir redzams (lasāms, pieejams) izpratnei un lietošanai. Var atrisināt jebkuru uzdevumu, pareizi uzstādīt uzdevumu, pamatot risinājumu, rakstīt eseju vai kursa darbu, atlasīt materiālu diplomam, analizēt avotus par disertācijas vai zinātniskā un analītiskā ziņojuma tēmu.

Var atrisināt jebkuru informācijas problēmu. Ar pienācīgu neatlaidību un prasmēm tiks iegūts precīzs un uzticams rezultāts. Šajā kontekstā datu ieguve ir pavisam cita pieeja.

Papildus rezultātam cilvēks saņem "aktīvas saites" uz visu, kas tika skatīts mērķa sasniegšanas procesā. Uz avotiem, kurus viņš izmantoja problēmas risināšanā, var atsaukties, un neviens neapstrīdēs avota esamības faktu. Tā nav autentiskuma garantija, taču tā ir droša liecība, kam atbildība par autentiskumu tiek "atrakstīta". No šī viedokļa datu ieguve nozīmē lielas šaubas par uzticamību un nav "aktīvu" saišu.

Atrisinot vairākas problēmas, cilvēks gūst rezultātus un paplašina savu intelektuālo potenciālu līdz daudzām "aktīvajām saitēm". Ja jauns uzdevums “aktivizē” jau esošu saiti, cilvēks zinās, kā to atrisināt: vairs nekas nav jāmeklē.

"Aktīvā saite" ir fiksēta saite: kā un ko darīt konkrētā gadījumā. Cilvēka smadzenes automātiski atceras visu, kas tām šķiet potenciāli interesants, noderīgs.vai, iespējams, būs nepieciešams nākotnē. Daudzējādā ziņā tas notiek zemapziņas līmenī, taču, tiklīdz rodas uzdevums, ko var saistīt ar “aktīvo saiti”, tas uzreiz iešaujas prātā un risinājums tiks iegūts bez papildu informācijas meklēšanas. Datu ieguve vienmēr ir meklēšanas algoritma atkārtojums, un šis algoritms nemainās.

Parasta meklēšana: "mākslinieciskas" problēmas

Matemātikas bibliotēka un informācijas meklēšana tajā ir samērā vājš uzdevums. Atrast vienu vai otru veidu, kā atrisināt integrāli, izveidot matricu vai veikt divu iedomātu skaitļu saskaitīšanas darbību, ir darbietilpīgs, taču vienkāršs. Jums ir jāsašķiro vairākas grāmatas, no kurām daudzas ir rakstītas noteiktā valodā, jāatrod pareizais teksts, jāizpēta tas un jāiegūst nepieciešamais risinājums.

Laika gaitā uzskaitīšana kļūs pazīstama, un uzkrātā pieredze ļaus orientēties bibliotēkas informācijā un citos matemātiskajos uzdevumos. Šī ir ierobežota jautājumu un atbilžu informācijas telpa. Raksturīga iezīme: šāda informācijas meklēšana uzkrāj zināšanas līdzīgu problēmu risināšanai. Cilvēka informācijas meklējumi atstāj viņa atmiņā pēdas ("aktīvās saites") par iespējamiem citu problēmu risinājumiem.

Daiļliteratūrā atrodiet atbildi uz jautājumu: "Kā cilvēki dzīvoja 1248. gada janvārī?" ļoti grūti. Vēl grūtāk ir atbildēt uz jautājumu, kas atradās veikalu plauktos un kā tika organizēta pārtikas tirdzniecība. Pat ja kāds rakstnieks skaidri un tieši par to rakstīja savā romānā, ja būtu atrodams šī rakstnieka vārds, tad šaubas parsaņemto datu ticamība saglabāsies. Uzticamība ir jebkura informācijas daudzuma kritiska īpašība. Svarīgi ir avots, autors un pierādījumi, kas izslēdz rezultāta nepatiesību.

Konkrētas situācijas objektīvi apstākļi

Cilvēks redz, dzird, jūt. Daži speciālisti brīvi pārvalda unikālu sajūtu – intuīciju. Problēmas formulējums prasa informāciju, problēmas risināšanas procesu visbiežāk pavada problēmas formulējuma precizēšana. Šī ir mazākā problēma, kas rodas, pārvietojot informāciju datorsistēmas iekšienē.

Informācija virtuālajā telpā
Informācija virtuālajā telpā

Bibliotēka un darba kolēģi ir netieši lēmumu pieņemšanas procesa dalībnieki. Grāmatas (avota) dizains, grafika tekstā, informācijas sadalīšanas virsrakstos, zemsvītras piezīmes pa frāzēm, priekšmeta rādītājs, primāro avotu saraksts - viss cilvēkā izraisa asociācijas, kas netieši ietekmē risināšanas procesu. problēma.

Problēmas risināšanas laiks un vieta ir būtiska. Cilvēks ir tā iekārtots, ka problēmas risināšanas procesā neviļus pievērš uzmanību visam, kas viņu ieskauj. Tas var novērst uzmanību vai stimulēt. Datu ieguve nekad "nesapratīs".

Informācija virtuālajā telpā

Cilvēku vienmēr ir interesējusi tikai uzticama informācija par notikumu, parādību, objektu, problēmas risināšanas algoritms. Cilvēks vienmēr ir iztēlojies, kā tieši viņš var sasniegt vēlamo mērķi.

Datoru un informācijas sistēmu izskatam vajadzēja atvieglot cilvēka dzīvi, bet viss ir kļuvis tikai sarežģītāks. Informācija migrēja datorsistēmu iekšienē un pazuda no redzesloka. Lai atlasītu nepieciešamos datus, ir jāizveido pareizs algoritms vai jāformulē vaicājums datu bāzei.

Dati informācijas sistēmā
Dati informācijas sistēmā

Jautājumam jābūt pareizam. Tikai tad jūs varat saņemt atbildi. Taču šaubas par autentiskumu paliek. Šajā ziņā datu ieguve patiešām ir "izrakumi", tā ir "informācijas ieguve". Tā ir modē šo frāzi tulkot. Krievu versija ir datu ieguves vai datu ieguves tehnoloģija.

Autoritatīvu speciālistu darbos Datu ieguves uzdevumi norādīti šādi:

  • klasifikācija;
  • klasterēšana;
  • asociācija;
  • secība;
  • prognozēšana.

No prakses viedokļa, kas virza cilvēku manuālajā informācijas apstrādē, visas šīs pozīcijas ir apstrīdamas. Jebkurā gadījumā cilvēks informāciju apstrādā automātiski un nedomā par datu klasificēšanu, objektu tematisko grupu sastādīšanu (grupēšanu), temporālo modeļu (secības) meklēšanu vai rezultāta prognozēšanu.

Visas šīs pozīcijas cilvēka prātā attēlo aktīvas zināšanas, kas aptver vairāk pozīciju un dinamiski izmanto sākotnējo datu apstrādes loģiku. Cilvēka zemapziņai ir svarīga loma, it īpaši, ja viņš ir speciālists kādā noteiktā zināšanu jomā.

Piemērs: datortehnikas vairumtirdzniecība

Uzdevums ir vienkāršs. Ir vairākidesmitiem datortehnikas un perifērijas ierīču piegādātāju. Katram ir cenrādis xls formātā (Excel fails), ko var lejupielādēt no piegādātāja oficiālās vietnes. Nepieciešams izveidot tīmekļa resursu, kas nolasa Excel failus, pārvērš tos datu bāzes tabulās un ļauj klientiem izvēlēties vēlamos produktus par viszemākajām cenām.

Problēmas rodas nekavējoties. Katrs piegādātājs piedāvā savu xls faila struktūras un satura versiju. Failu var iegūt, lejupielādējot to no piegādātāja vietnes, pasūtot pa e-pastu vai saņemot lejupielādes saiti, izmantojot savu personīgo kontu, tas ir, oficiāli reģistrējoties pie piegādātāja.

Virtuālo datoru veikals
Virtuālo datoru veikals

Problēmas risinājums (pašā sākumā) ir tehnoloģiski vienkāršs. Ielādējot failus (sākotnējos datus), katram piegādātājam tiek uzrakstīts failu atpazīšanas algoritms un dati tiek ievietoti vienā lielā sākuma datu tabulā. Pēc visu datu saņemšanas, pēc tam, kad ir izveidots jaunu datu nepārtrauktas apmaiņas mehānisms (katru dienu, nedēļu vai mainoties):

  • mainiet sortimentu;
  • cenas izmaiņas;
  • noliktavā esošā daudzuma precizēšana;
  • garantijas noteikumu, specifikāciju utt. pielāgošana

Šeit sākas īstās problēmas. Lieta tāda, ka piegādātājs var rakstīt:

  • piezīmjdators Acer;
  • piezīmjdators Asus;
  • Dell klēpjdators.

Mēs runājam par vienu un to pašu produktu, bet no dažādiem ražotājiem. Kā saskaņot piezīmjdatoru=klēpjdatoru vai kā noņemt Acer, Asus un Dell no produktu līnijas?

Parcilvēks nav problēma, bet kā algoritms "sapratīs", ka Acer, Asus, Dell, Samsung, LG, HP, Sony ir preču zīmes vai piegādātāji? Kā saskaņot vārdus "printeris" un printeris, "skeneris" un "MFP", "kopētājs" un "MFP", "austiņas" ar "austiņām", "piederumi" ar "piederumi"?

Kategoriju koka izveide, pamatojoties uz avota datiem (avota failiem), jau ir problēma, ja jums ir jāiestata viss automātiski.

Datu paraugu ņemšana: "svaigi ielietā" izrakumi

Datortehnikas piegādātāju datu bāzes izveides uzdevums ir atrisināts. Ir izveidots kategoriju koks, darbojas kopēja tabula ar piedāvājumiem no visiem piegādātājiem.

Tipiski datu ieguves uzdevumi šī piemēra kontekstā:

  • atrodiet preci par zemāko cenu;
  • atlasiet preci ar viszemākajām piegādes izmaksām un cenu;
  • produktu analīze: īpašības un cenas pēc kritērijiem.

Reālajā vadītāja darbā, izmantojot vairāku desmitu piegādātāju datus, šiem uzdevumiem būs daudz variāciju un pat reālākas situācijas.

Piemēram, ir piegādātājs "A", kas pārdod ASUS VivoBook S15: priekšapmaksa, piegāde 5 dienas pēc faktiskās naudas saņemšanas. Ir viena un tā paša modeļa tāda paša produkta piegādātājs "B": samaksa saņemot, piegāde pēc līguma noslēgšanas dienas laikā, cena pusotru reizi augstāka.

Sākas datu ieguve – "izrakumi". Tēlaini izteicieni: "izrakumi" vai "datu ieguve" ir sinonīmi. Tas ir par to, kā iegūt iemeslu lēmuma pieņemšanai.

Piegādātājiem "A" un "B" ir bijusi piegādes vēsture. Novērtējumspriekšapmaksa pirmajā gadījumā pret samaksu pēc saņemšanas otrajā gadījumā, ņemot vērā, ka piegādes neveiksme otrajā gadījumā ir par 65% lielāka. Sodu risks no klienta ir lielāks/mazāks. Kā un ko noteikt un kādu lēmumu pieņemt?

No otras puses: datubāzi izveidoja programmētājs un vadītājs. Ja mainījušies programmētājs un vadītājs, kā noteikt pašreizējo datu bāzes stāvokli un iemācīties to pareizi lietot? Jums būs arī jāveic datu ieguve. Datu ieguve piedāvā dažādas matemātiskas un loģiskas metodes, kurām nav vienalga, kāda veida dati tiek pētīti. Tas nodrošina pareizo risinājumu dažos gadījumos, bet ne visos.

Pāreja uz virtualitāti un jēgas atrašana

Datu ieguves metodes kļūst jēgpilnas, tiklīdz informācija tiek ierakstīta datu bāzē un pazūd no “redzes lauka”. Datortehnikas tirdzniecība ir interesants uzdevums, taču tas ir tikai bizness. Tas, cik labi viņš ir organizēts uzņēmumā, ir atkarīgs no tā panākumiem.

Klimata pārmaiņas uz planētas un laikapstākļi konkrētajā pilsētā interesē ikvienu, ne tikai profesionālus klimata ekspertus. Tūkstošiem sensoru nolasa vēja, mitruma, spiediena rādījumus, datus no mākslīgajiem Zemes pavadoņiem, un datu vēsture ir gadiem un gadsimtiem ilgi.

Laikapstākļu dati nav tikai par to, vai pieņemt darbā lietussargu. Datu ieguves tehnoloģijas ir drošs lidmašīnas lidojums, stabila automaģistrāles darbība un uzticama naftas produktu piegāde pa jūru.

"Neapstrādāti" dati tiek nosūtīti uz informācijusistēma. Datu ieguves uzdevumi ir pārvērst tos sistematizētā tabulu sistēmā, izveidot saites, izcelt viendabīgu datu grupas un noteikt modeļus.

Klimats, laikapstākļi un neapstrādāti dati
Klimats, laikapstākļi un neapstrādāti dati

Matemātiskās un loģiskās metodes kopš kvantitatīvās analīzes laikiem OLAP (On-line Analytical Processing) ir pierādījušas savu praktiskumu. Šeit tehnoloģija ļauj atrast nozīmi un to nepazaudēt, kā tas ir datortehnikas pārdošanas piemērā.

Turklāt globālajos uzdevumos:

  • transnacionāls bizness;
  • gaisa transporta vadība;
  • zemes zarnu vai sociālo problēmu izpēte (valsts līmenī);
  • zāļu ietekmes uz dzīvo organismu pētījums;
  • rūpnieciskā uzņēmuma būvniecības seku prognozēšana utt.

Datu raktuves tehnoloģijas un “bezjēdzīgu” datu pārvēršana reālos datos, kas ļauj pieņemt objektīvus lēmumus, ir vienīgā iespēja.

Cilvēka iespējas beidzas tur, kur ir liels neapstrādātas informācijas apjoms. Datu ieguves sistēmas zaudē savu lietderību, ja ir nepieciešams redzēt, saprast un sajust informāciju.

Saprātīgs funkciju sadalījums un objektivitāte

Cilvēkam un datoram ir jāpapildina vienam otru – tā ir aksioma. Promocijas darba rakstīšana ir cilvēka prioritāte, un informācijas sistēma ir palīgs. Šeit dati, kas ir datu ieguves tehnoloģijai, ir heiristika, noteikumi, algoritmi.

Iknedēļas laika prognozes sagatavošana ir informācijas sistēmas prioritāte. Cilvēks pārvalda datus, bet savus lēmumus pamato ar sistēmas aprēķinu rezultātiem. Tas apvieno datu ieguves metodes, speciālistu datu klasifikāciju, algoritmu pielietojuma manuālu vadību, automātisku pagātnes datu salīdzināšanu, matemātisko prognozēšanu un daudz informācijas un informācijas sistēmas pielietošanā iesaistīto reālu cilvēku zināšanas un prasmes.

Cilvēks un dators
Cilvēks un dators

Varbūtību teorija un matemātiskā statistika nav tās "mīļākās" un saprotamākās zināšanu jomas. Daudzi speciālisti no tiem ir ļoti tālu, taču šajās jomās izstrādātās metodes dod gandrīz 100% pareizu rezultātu. Pielietojot sistēmas, kas balstītas uz Data Mining idejām, metodēm un algoritmiem, risinājumus var iegūt objektīvi un uzticami. Pretējā gadījumā vienkārši nav iespējams atrast risinājumu.

Faraoni un pagājušo gadsimtu noslēpumi

Vēsture tika periodiski pārrakstīta:

  • valstis - savu stratēģisko interešu dēļ;
  • autoritatīvi zinātnieki - savas subjektīvās pārliecības dēļ.

Ir grūti pateikt, kas ir patiesība un kas ir nepatiess. Datu ieguves izmantošana ļauj mums atrisināt šo problēmu. Piemēram, piramīdu celtniecības tehnoloģiju aprakstīja hronisti un pētīja zinātnieki dažādos gadsimtos. Ne visi materiāli nokļuva internetā, ne viss šeit ir unikāls, un daudzos datos var nebūt:

  • aprakstīts laika punkts;
  • apraksta rakstīšanas laiks;
  • datumi, uz kuriem balstīts apraksts;
  • autors(-i), viedokļi (saites) ņemti vērā;
  • objektivitātes apstiprinājums.

Bbibliotēkās, tempļos un "negaidītās vietās" var atrast dažādu gadsimtu rokrakstus un pagātnes materiālās liecības.

Interesants mērķis: salikt visu kopā un atklāt "patiesību". Problēmas iezīme: informāciju var iegūt no pirmā hronista apraksta faraonu dzīves laikā līdz pašreizējam gadsimtam, kurā daudzi zinātnieki šo problēmu risina ar modernām metodēm.

Datu ieguves izmantošanas pamatojums: roku darbs nav iespējams. Pārāk daudz daudzumu:

  • informācijas avoti;
  • pārstāvniecības valodas;
  • pētnieki dažādos veidos apraksta vienu un to pašu;
  • datumi, pasākumi un noteikumi;
  • termiņa korelācijas problēmas;
  • statistikas analīze pēc datu grupām laika gaitā var atšķirties utt.

Pagājušā gadsimta beigās, kad kārtējais mākslīgā intelekta idejas fiasko kļuva skaidrs ne tikai nespeciālistam, bet arī izsmalcinātam speciālistam, radās doma: “atjaunot personību”.

Piemēram, pēc Puškina, Gogoļa, Čehova darbiem veidojas noteikta noteikumu sistēma, uzvedības loģika un izveidota informācijas sistēma, kas spēj atbildēt uz noteiktiem jautājumiem kā to darītu cilvēks: Puškins, Gogolis vai Čehovs. Teorētiski šāds uzdevums ir interesants, taču praktiski to ir ārkārtīgi grūti īstenot.

Tomēr ideja par šādu uzdevumu liecina par ļoti praktisku ideju: "kā izveidot viedo informācijas meklēšanu." Internets ir daudz jaunattīstības resursu, milzīga datubāze, un šī ir lieliska iespēja pielietot datu ieguvi kombinācijā ar cilvēkuloģika kopīgas attīstības formātā.

Mašīna un cilvēks kopā
Mašīna un cilvēks kopā

Mašīna un cilvēks pārī ir lielisks uzdevums un neapšaubāms panākums "informācijas arheoloģijas" jomā, kvalitatīvi izrakumi datos un rezultātos, kas radīs šaubas, bet bez šaubām ļaus jums iegūt jaunas zināšanas un būs pieprasītas sabiedrībā.

Ieteicams: