Opin vísindi

Standards-based Models and Architectures to Automate Scalable and Distributed Data Processing and Analysis

Skoða venjulega færslu

dc.contributor Háskóli Íslands
dc.contributor University of Iceland
dc.contributor.advisor Morris Riedel
dc.contributor.author Memon, Mohammad Shahbaz
dc.date.accessioned 2019-10-08T13:04:24Z
dc.date.available 2019-10-08T13:04:24Z
dc.date.issued 2019-09
dc.identifier.citation Mohammad Shahbaz Memon, 2019, Standards-based Models and Architectures to Automate Scalable and Distributed Data Processing and Analysis, PhD dissertation, Faculty of Industrial Engineering, Mechanical Engineering and Computer Science, University of Iceland, 102 pp.
dc.identifier.isbn 978-9935-9473-4-5
dc.identifier.uri https://hdl.handle.net/20.500.11815/1299
dc.description.abstract Scientific communities engaging in big data analysis face numerous challenges in managing complex computations and the related data on emerging and distributed computing infrastructures. Large-scale data analysis requires applications with simplified access to multiple resource management systems. Several generic or domain-specific technologies have been developed to exploit diversified computing environments, but due to the heterogeneity of computing and data architectures they are not capable of enabling real science cases. Scientific gateways and workflows are one such example which requires the management of jobs on multiple kinds of batch systems using heterogeneous supercomputing architectures and access to advanced distributed file systems. To support these requirements, a unified architectural framework is presented in this dissertation that coalesces the right combination of standards and adequate middleware realisation. This framework manages concurrent access for diversified user communities through consistent and robust computing and data interfaces oriented to current application and infrastructure demands. The investigations reported in this dissertation were mainly motivated by physical and machine-learning models, represented by two scientific case studies: biophysics and Earth sciences. In the field of biophysics, the UltraScan scientific gateway is enhanced to enable the processing of domain-specific data through standards-based job and data management interfaces in HPC environments. The second domain deals with Earth sciences and automates the processing of machine-learning algorithms (e.g. classification of remote sensing images) using scalable and parallel implementations. As proof of concept, both the case studies are supported through open source implementations, in the form of middleware realisation, client APIs and their integration with state-of-the-art science gateway frameworks.
dc.description.abstract Vísindasamfélög sem vinna með stórtæk gögn kljást við margskonar áskoranir í sambandi við meðhöndlun flókinna útreikninga, og gögnum þeim tengdum, á komandi og dreifðum kerfum. Stórtæk gagnagreining kallar á lausnir með einfölduðu aðgengi að margvíslegum tölvurekstrarkerfum. Margar almennar og sértækar aðferðir hafa verið þróaðar til að nota síbreytileg reiknikerfi, en vegna ólíkra reikniaðferða og þeirra gagnaskipan geta þær ekki framkvæmt alvöru vísindarannsóknir. Vísindalegar gagnagáttir og vinnuferli eru dæmi um slíkt sem þarfnast verkmeðhöndlunar á margvíslegum bunkakerfum á ólíkum ofurtölvuhögum og aðgengi að háþróuðum dreifðum skráarkerfum. Til að styðja þessar kröfur er í þessari doktorsritgerð kynntur högunarrammi sem sameinar réttu samsetninguna af stöðlum og uppsetningu fullnægjandi millibúnaðar. Þessi rammi meðhöndlar samhliða aðgang fyrir fjölbreytta notandahópa í gegnum öflug og áreiðanleg reikni- og gagnasnið sem eru sniðin að þörfum forrita og tölvukerfainnviðum. Rannsóknaniðurstöðurnar sem eru kynntar í þessari doktorsritgerð eru aðalega rökstuddar með raun- og vélarnámsmódelum frá tveimur dæmum frá jafnmörgum fræðasviðum: lífeðlisfræði og jarvísindum. Fyrir lífeðlisfræði er UltraScan vísindagáttin betrumbætt til þess að gera henni kleift að meðhöndla sértæk gögn í gegnum stöðluð verkumsjónar- og gagnastjórnunarsnið í háhraða tölvukerfum (HPC). Seinna fræðisviðið er jarðvísindi og gerir meðhöndlun vélarnámsaðferða sjálfvirka (t.d. greiningu fjarkönnunarmyndefnis) með stigvaxand útfærslum sem hægt er að keyra samhliða. Dæmin frá bæðum fræðisviðum eru studd með opnum hugbúnaði í formi millibúnaðarútfærslna, biðlaraforritaskil með bestu gáttarömmum sem fyrirfinnast í dag, til þess að sanna gildi þeirra.
dc.format.extent 102
dc.language.iso en
dc.publisher University of Iceland, School of Engineering and Natural Sciences, Faculty of Industrial Engineering, Mechanical Engineering and Computer Science
dc.rights info:eu-repo/semantics/openAccess
dc.subject High-Performance Computing
dc.subject Scientific Workflows
dc.subject Distributed Computing
dc.subject Open Standards
dc.subject Job Execution
dc.subject Data Analysis
dc.subject Upplýsingatækni
dc.subject Gagnagreining
dc.subject Upplýsingakerfi
dc.subject Opinn hugbúnaður
dc.subject Tölvunarfræði
dc.subject Doktorsritgerðir
dc.title Standards-based Models and Architectures to Automate Scalable and Distributed Data Processing and Analysis
dc.title.alternative Stöðluð módel og högun til að sjálfvirknivæða stigfrjálsa dreifða gagnavinnslu og greiningu
dc.type info:eu-repo/semantics/doctoralThesis
dc.contributor.department Iðnaðarverkfræði-, vélaverkfræði- og tölvunarfræðideild (HÍ)
dc.contributor.department Faculty of Industrial Eng., Mechanical Eng. and Computer Science (UI)
dc.contributor.school Verkfræði- og náttúruvísindasvið (HÍ)
dc.contributor.school School of Engineering and Natural Sciences (UI)


Skrár

Þetta verk birtist í eftirfarandi safni/söfnum:

Skoða venjulega færslu