Sistemi cloud ad alte prestazioni per l’intelligenza artificiale e il calcolo scientifico
- Agrifood
- Circular & Bioeconomy
- Cultural Heritage
- Energy & Environment
- Financial & Banking industry
- Health
- Mobility & Transportation
- Smart Technologies for Industry and Business
- Space Science
Cloud High Performance HPC4AI
- Cloud zone basato su tecnologia OpenStack all’interno di un CED di classe equivalente Tier III globalmente 2000+ CPU Intel core, 72 GPU, 24+ TiB RAM, 2+ PB storage e sistema di backup con versioning in tecnologia miste flash/nVme/ssd/sas
- 16 nodi 4 GPU Nvidia Turing T4 per nodo
- 2 nodi con 4 GPU NVidia V100 SMX2 per nodo
- 4 nodi storage software defined all-flash, 350 TB
- 3 sistemi di storage con diverse classi di sicurezza, affidabilità e velocità e sistema di backup integrato
- Modello di utilizzo cloud (tutte le astrazioni)
- MaaS/IaaS: singole macchine virtuali o cluster di macchine virtuali. Esempi di applicazioni: sviluppo di applicazioni (Linux/Windows), servizi web e microservices, applicazioni scientifiche, video rendering, machine learning (training e inferenza)
- PaaS: piattaforme cloud con deployment automatizzato e semplificato mediante tecnologia Deployment-a-as-Service (DaaS) e HPC multi-tenancy (es. Kubernetes). Esempi di applicazioni: BigData (es. Spark), DeepLearning (es. Tensorflow, Pytorch), Federated Learning
- SaaS: fornitura di servizi mediante interfaccia web (REST) di applicazioni open o proprietarie. Esempi di applicazioni: Jupiter notebook, web server
Cluster HPC OCCAM
- Cluster HPC con architettura modulare composto da 3 moduli
- LIGHT: 32 nodi dual-socket 24 cores, 128GB RAM
- FAT: 4 nodi quad-socket 48 cores, 768GB RAM
- GPU: 4 nodi dual-socket 24 cores, 128GB RAM, NVIDIA 2 x K40
- 4 nodi con 2 GPU NVidia V100 per nodo - Shared high-performance “scratch” storage 300TiB (Lustre parallel file system)
- Shared “archive” storage 700TiB (NFS)
- Networking: Infiniband 56Gb/s fat-tree, 10Gb/s ethernet, 1Gb/s ethernet
Attrezzatura acquisita anche con il contributo di Regione Piemonte, Compagnia di San Paolo, Unione Europea, GARR.
Cloud High Performance HPC4AI
- Deployment di risorse di calcolo sulla base della definizione di un progetto/richiesta tramite form sul sito web del progetto. Accesso alle risorse via console remota tramite servizio web apposito.
- Utilizzo dei servizi di calcolo e storage.
- Supporto scientifico e tecnico alla progettazione e allo sviluppo di nuove applicazioni e servizi.
- Supporto al porting, all’integrazione e all’ottimizzazione di applicazioni scientifiche su piattaforma cloud.
- Supporto alla sperimentazione (ricerca e innovazione) in diversi ambiti della Computer Science: applicazioni ad alte prestazioni, high-frequency streaming, Big Data, Machine e Deep Learning.
- Hosting e personalizzazione di sistemi (hardware, cloud stack, applicazioni) in modalità “co-design” con possibilità di personalizzazione in tutto lo stack software (previo specifico accordo di collaborazione scientifica).
Cluster HPC “OCCAM”
- Applicazioni HPC, applicazioni scientifiche su singolo nodo CPU+GPU (R, Matlab, C/C++, Java), applicazioni MPI, benchmarking, sistemi di job queue on-demand.
L'accesso all'infrastruttura avviene mediante rete pubblica (internet).
La tariffa per l’uso di servizi di calcolo e storage è calcolata in funzione del tipo, numero e tempo di utilizzo delle piattaforme e dei servizi. È possibile la simulazione del costo.
È valutata la fattibilità tecnica della richiesta di personalizzazione della infrastruttura hardware o dello stack software, sono programmati gli esperimenti ed è proposta una quotazione per i servizi richiesti.
Per il Cluster HPC “OCCAM”, l’accesso è su prenotazione di uno o più nodi mediante calendario su portale web, deployment applicazioni mediante immagine Linux docker (Metal-as-a-Service).