The design of Deep Learning (DL) models is a complex task, involving decisions
on the general architecture of the model (e.g., the number of layers of the Neural
Network (NN)) and on the optimization algorithms (e.g., the learning rate). These
so-called hyperparameters significantly influence the performance (e.g., accuracy or
error rates) of the final DL model and are, therefore, of great importance. However,
optimizing these hyperparameters is a computationally intensive process due to the
necessity of evaluating many combinations to identify the best-performing ones. Often,
the optimization is manually performed.
This Ph.D. thesis leverages the power of High-Performance Computing (HPC) systems
to perform automatic and efficient Hyperparameter Optimization (HPO) for DL models
that are trained on large quantities of scientific data. On modern HPO systems, equipped
with a high number of Graphics Processing Units (GPUs), it becomes possible to not
only evaluate multiple models with different hyperparameter combinations in parallel but
also to distribute the training of the models themselves to multiple GPUs. State-of-the-art HPO methods, based on the concepts of early stopping, have demonstrated significant
reductions in the runtime of the HPO process. Their performance at scale, particularly
in the context of HPC environments and when applied to large scientific datasets, has
remained unexplored. This thesis thus researches parallel and scalable HPO methods
that leverage new inherent capabilities of HPC systems and innovative workflows
incorporating novel computing paradigms. The developed HPO methods are validated
on different scientific datasets ranging from the Computational Fluid Dynamics (CFD)
to Remote Sensing (RS) domain, spanning multiple hundred Gigabytes (GBs) to several
Terabytes (TBs) in size.
Að hanna Deep Learning (DL) kerfi er flókið verkefni, sem felur í sér ákvarðanir um
almennan arkitektúr kerfisins (t.d. fjölda laga) og fínstillingu á breytum (t.d. við innleiðingu kerfisins). Þessar svokölluðu ofurfæribreytur hafa veruleg áhrif á frammistöðu
staðbundna DL líkansins og eru því mjög mikilvægar. Hins vegar getur fínstilling þessa
færibreyta verið auðlindafrekt (resource-intensive) ferli vegna þess að það þarf að meta
margar samsetningar til að finna þær sem standa sig best og skila besta árangri.
Þessi Ph.D. ritgerð miðar að nýta kraftinn í ofurtölvu kerfum (High-Performance
Computing/HPC) til að framkvæma skilvirka Hyperparameter Optimization (HPO)
fyrir DL líkön sem eru þjálfuð á stórum vísinda-gagnasöfnum. Í nútíma HPC kerfum, búin fjölda grafískra vinnslueininga (GPU), verður ekki aðeins hægt að mæla
margar gerðir með mismunandi samsetningar samhliða, heldur einnig að keyra þjálfun líkananna sjálfra á mörgum GPU einingum. Nýjustu HPO aðferðir, sem byggja á
hugmyndinni um snemmbúna stöðvun, hafa sýnt verulega lækkun á keyrslutíma HPO
ferlisins. Frammistaða þeirra í stærðargráðu, sérstaklega í tengslum við HPC umhverfi
og þegar þau eru notuð í stórum vísindalegum gagnagrunnum, hefur hingað til verið
órannsakað svið. Í þessari ritgerð er leitast við að brúa þetta bil með því að innleiða
hliðstæðar og stigstærðar/skalanlegar HPO aðferðir sem nýta eðlislæga eiginleika HPC
kerfisins og verkflæði sem fela í sér innlimun nýrra reikniviðmiða. HPO aðferðirnar og
virkni þeirra hafa verið staðfest (validated) á mismunandi vísindalegum gagnasöfnum
og sviðum, allt frá Computational Fluid Dynamics (CFD) til fjarkönnunar (Remote
Sensing/RS), sem spannar nokkur hundruð gígabæt til nokkurra terabæta að stærð.