Scalable Data Analysis in High Performance Computing

dc.contributorHáskóli Íslandsen_US
dc.contributorUniversity of Icelanden_US
dc.contributor.advisorMorris Riedelis
dc.contributor.authorGötz, Markus
dc.contributor.departmentIðnaðarverkfræði-, vélaverkfræði- og tölvunarfræðideild (HÍ)en_US
dc.contributor.departmentFaculty of Industrial Eng., Mechanical Eng. and Computer Science (UI)en_US
dc.contributor.schoolVerkfræði- og náttúruvísindasvið (HÍ)en_US
dc.contributor.schoolSchool of Engineering and Natural Sciences (UI)en_US
dc.date.accessioned2017-12-15T11:23:50Z
dc.date.available2017-12-15T11:23:50Z
dc.date.issued2017-12-05
dc.descriptionDissertation submitted in partial fulfillment of a Philosophiae Doctor degree in Computational Engineeringen_US
dc.description.abstractÁ síðastliðnum áratug hefur orðið mikil aukning í framleiðslu og geymslu gagna í iðnaði sem og rannsóknum. Þrátt fyrir að gagnagreining sé ekki ný af nálinni, stendur hún frammi fyrir þeirri áskorun að ráða við síaukið magn, bandvídd og flækjustig gagna. Þetta gerir hefðbundnar aðferðir óskilvirkar og hefur þetta vandamál verið nefnt gagnagnótt (e. Big Data). Í vísindum koma gögn helst frá umfangsmiklum tilraunum og hermunum. Hingað til hefur ekki verið fyllilega unnið úr gögnunum, heldur hafa þau verið geymd í gagnageymslum fyrir greiningu síðar meir, vegna skorts á skilvirkum úrvinnsluaðferðum. Af þessu má draga þá ályktun að til að greina þessi gögn þurfi víðtæka umgjörð fyrir gagnagreiningu og algrímasöfn og er tölvuumhverfið sem miðað er við, misleit kerfi sem ætluð eru fyrir stórfellda tölvuvinnslu (e. high-performance computing). Þessi ritgerð leggur til hönnun og frumgerðarútfærslu á slíkri umgjörð sem byggir á reynslu sem fengin er úr raunverulegum notkunardæmum, einkum jarðvísindum. Sérstaklega voru skoðuð dæmi um merkingu útlína hluta í punktaskýsgögnum og líffræðilegu myndefni, útlagar (e. outliers) í haffræðilegum tímaraðagögnum og flokkun á fjarkönnunarmyndefni. Til að ráða við hið mikla magn gagna voru tvö greiningaralgrím aðlöguð fyrir samhliða vinnslu í kerfum með samnota- og dreift minni. Þetta eru HPDBSCAN, sem er klösunaraðferð byggð á þéttiföllum og Distributed Max-Trees, síunaralgrím fyrir myndir. Báðar aðferðir voru færðar yfir í almenna frumgerð sem einfaldar framsetningu skalanlegra algríma fyrir aðrar sambærilegar greiningaraðferðir. Þar að auki gerir þetta kleift að setja fram skilgreiningu á þörfum fyrir hönnun víðtækra gagnagreiningaumgjarðar og söfn algríma fyrir misleit kerfi ætluð til dreifðrar stórtækrar tölvuvinnslu. Að lokum er frumgerð á útfærslu slíkrar umgjarðar kynnt sem nefnd er Juelich Machine Learning Library (JuML), sem veitir aðgang að lágtæknieiningum og tilbúnum útfærslum á greiningaralgrímum.en_US
dc.description.abstractOver the last decades one could observe a drastic increase in the generation and storage of data in both, industry and science. While the field of data analysis is not new, it is now facing the challenge of coping with an increasing size, bandwidth and complexity of data. This renders traditional analysis methods and algorithms ineffective. This problem has been coined as the Big Data challenge. Concretely in science the major data producers are large-scale monolithic experiments and the outputs of domain simulations. Up until now, most of this data has not yet been completely analyzed, but rather stored in data repositories for later consideration due to the lack of efficient means of processing. As a consequence, there is a need for large-scale data analysis frameworks and algorithm libraries allowing to study these datasets. In context of scientific applications, potentially coupled with legacy simulations, the designated target platform are heterogeneous high-performance computing systems. This thesis proposes a design and prototypical realization of such a framework based on the experience collected from empirical applications. For this, selected scientific use cases, with an emphasis on earth sciences, were studied. In particular, these are object segmentation in point cloud data and biological imagery, outlier detection in oceanographic time-series data as well as land cover type classification in remote sensing images. In order to deal with the data amounts, two analysis algorithms have been parallelized for shared- and distributed-memory systems. Concretely, these are HPDBSCAN, a density-based clustering algorithm, as well as Distributed Max-Trees, a filtering step for images. The presented parallelization strategies have been abstracted into a generalized paradigm, enabling the formulation of scalable algorithms for other similar analysis methods. Moreover, it permits the definition of requirements for the design of a large-scale data analysis framework and algorithm library for heterogeneous, distributed high-performance computing systems. In line with that, the thesis presents a prototypical realization called Juelich Machine Learning Library (JuML), providing essential low-level components and readily usable analysis algorithm implementations.en_US
dc.identifier.citationMarkus Götz, 2017, Scalable Data Analysis in High Performance Computing, PhD dissertation, Faculty of Industrial Engineering, Mechanical Engineering and Computer Science, University of Icelanden_US
dc.identifier.isbn9789935938329
dc.identifier.urihttps://hdl.handle.net/20.500.11815/472
dc.language.isoenen_US
dc.publisherUniversity of Iceland, School of Engineering and Natural Sciences, Faculty of Industrial Engineering, Mechanical Engineering and Computer Scienceen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectData Analysisen_US
dc.subjectMachine Learningen_US
dc.subjectHigh-Performance Computingen_US
dc.subjectFramework Designen_US
dc.subjectEarth Sciencesen_US
dc.subjectUse Case Studyen_US
dc.subjectRafræn gögnen_US
dc.subjectGagnanotkunen_US
dc.subjectReiknigreinden_US
dc.subjectJarðvísindien_US
dc.subjectDoktorsritgerðiren_US
dc.titleScalable Data Analysis in High Performance Computingen_US
dc.typeinfo:eu-repo/semantics/doctoralThesisen_US

Skrár

Original bundle

Niðurstöður 1 - 1 af 1
Hleð...
Thumbnail Image
Nafn:
thesis.pdf
Stærð:
13.58 MB
Snið:
Adobe Portable Document Format
Description: