Oliver Liebel

Skalierbare KI/ML-Infrastrukturen

Evaluieren, Automatisieren, Praxis. 1. Auflage
eBook (epub), 468 Seiten
EAN 9783836273954
Veröffentlicht Januar 2023
Verlag/Hersteller Rheinwerk eBooks

Auch erhältlich als:

Buch (Hardcover)
79,90
63,92 inkl. MwSt.
Sofort Lieferbar (Download)
Teilen
Beschreibung

Wie Sie abseits der Hypes resiliente, hochautomatisierte und autoskalierbare Systeme für Produktiv-Workloads aufbauen, zeigt Ihnen Oliver Liebel in diesem Wegweiser. Sie erfahren, wie Sie NVIDIAs Datacenter-GPUs nahtlos in Hypervisoren und moderne Container-Infrastrukturen integrieren, sie Operator-gestützt mit Kubernetes bzw. OpenShift verwalten und daraus praxistaugliche Setups machen. Betrachtet wird der ganze Infrastruktur-Stack: Von On-Premises-Installationen auf vSphere oder Cloud-Setups auf GCP und AWS über Plattform-Automation per IaaS/IaC sowie den GPU- und Network-Operatoren bis hin zu einem Ausblick auf AI End-to-End-Tool-Stacks. Aus dem Inhalt: - KI/ML: Grundlagen und Use Cases - Infrastruktur planen: On-Premises, Cloud oder Hybrid? - Technischer Background: KI/ML mit NVIDIA-GPUs - GPU-Modi: Passthrough-MIG vs. MIG-backed vGPU vs. vGPU - NVIDIA-GPUs auf vSphere On-Prem implementieren - NVIDIA AI Enterprise - KI/ML-Cluster mit Kubernetes und OpenShift - GPU-spezifische Operatoren - GPU-Cluster mit OpenShift - Von CI/CD über GitOps zu MLOps - ML-Pipelines & AI End-to-End

Portrait

Dipl.-Ing. Oliver Liebel ist LPI-zertifizierter Linux-Enterprise-Experte und offizieller Business Partner von SUSE und Red Hat. Als Dozent, Autor, Berater und Projektleiter ist er seit vielen Jahren für namhafte Unternehmen, internationale Konzerne und Institutionen auf Landes- und Bundesebene tätig. Dabei blickt er auf 25 Jahre Berufserfahrung zurück.

Inhaltsverzeichnis

1. Vorwort ... 19 1.1 ... Vorbemerkungen ... 28 1.2 ... Was dieses Buch sein bzw. nicht sein soll ... 31 1.3 ... Wie dieses Buch zu lesen ist ... 34 1.4 ... Thematischer Überblick - was wird in welchen Kapiteln behandelt ... 34 TEIL I. Technische Foundations zu skalierbaren KI/ML-Infrastrukturen ... 39 2. Am Anfang war die Dunkelheit ... 41 2.1 ... Eine kurze Einführung: KI/ML-Systeme - und alles wird gut. Oder eher nicht? ... 42 2.2 ... Use Cases für KI/ ML-Anwendungen - Auszüge ... 45 2.3 ... Fehlerfreie KI? Sicher nicht. ... 50 2.4 ... Einige Grundbegrifflichkeiten im KI/ML-Kontext ... 52 3. High-Level-Vorbetrachtungen zur Implementierung von skalierbaren KI/ML-Infrastrukturen ... 65 3.1 ... Bare-Metal, Virtualisierung, Containerisierung ... 65 3.2 ... Generelle Infrastruktur-Fragen: Cloud vs. On-Prem, Managed Server, hybrider Mischbetrieb, dedizierte KI-Plattformen (NVIDIA DGX) ... 69 3.3 ... Entscheidungshilfe: Reguläre GPU-Server, KI/ML-Boliden wie DGX oder alles in die Cloud? ... 85 3.4 ... Generelle GPU-Hardware-Fragen: NVIDIA vs. AMD vs. Intel vs. Googles TPU ... 86 4. NVIDIA-Datacenter-GPUs und mehr - technischer Background ... 93 4.1 ... NVIDIA und ML-Cluster ... 93 4.2 ... Partitionierte GPUs mit NVIDIAs vGPU und MIG ... 95 4.3 ... vGPU - Virtual GPU ... 97 4.4 ... MIG - Multi-Instance GPU ... 113 4.5 ... MIG: Multi-Tenancy revisited ... 128 4.6 ... Technische Daten und Preise ausgewählter NVIDIA Datacenter-GPUs ... 134 4.7 ... GPU-Time-Slicing und GPU-Overcommitment ... 137 4.8 ... NVLink und NVSwitch: GPU Big Blocks - Bündelung multipler GPUs ... 139 4.9 ... GPUDirect (RDMA) ... 142 4.10 ... GPU-Performance in ML-Trainings - Bare-Metal vs. vGPU/MIG ... 145 4.11 ... NVIDIA-Datacenter-Produkte: The Road Ahead ... 149 TEIL II. Implementierung von skalierbaren KI/ML-Infrastrukturen ... 151 5. Implementierung: vSphere als Hypervisor für skalierbare ML-Infrastrukturen ... 153 5.1 ... Hardware-Voraussetzungen und Vorbetrachtungen (vSphere/On-Prem) ... 153 5.2 ... Preflights ... 154 5.3 ... Setup des GPU-Managers/vGPU-Host-Drivers (ESXi/vSphere 7) ... 160 5.4 ... VM-Templates mit GPUs erstellen ... 164 5.5 ... MIG-Mode auf dem Hypervisor aktivieren ... 171 6. Der NVIDIA AI Enterprise (NVAIE)-Stack - infrastrukturrelevante Betrachtungen ... 181 6.1 ... Vorbetrachtungen ... 181 6.2 ... Motivation ... 182 6.3 ... Plattformen für NVAIE ... 183 6.4 ... NVAIE vs. vGPU vs. Free GPU Operator ... 185 6.5 ... NVAIE in der Public Cloud ... 186 6.6 ... NVAIE ist Pflicht für skalierbare ML-Cluster? ... 187 6.7 ... NVAIE als AI-End-to-End-Platform ... 187 7. vGPU-/NVAIE-Preflights: Lizenzierung ... 189 7.1 ... Grundsätzliches: vGPU- vs. NVAIE-Lizenzen und DLS vs. CLS ... 189 7.2 ... NVIDIA Licensing System (NLS) ... 194 7.3 ... License Server: DLS vs. CLS ... 196 7.4 ... Self-Hosted License Server: DLS und Legacy License Server ... 197 7.5 ... Cloud-Hosted License Server: CLS ... 205 8. Kubernetes-basierte Plattformen für skalierbare, GPU-Accelerated KI/ML-Cluster ... 209 8.1 ... The Road so far ... 209 8.2 ... Generelle Plattform-Fragen: (Vanilla-)Kubernetes-Derivate und OpenShift im Überblick ... 211 8.3 ... Vanilla Kubernetes ... 213 8.4 ... VMwares Tanzu und das Eckige, das durchs Runde soll ... 217 8.5 ... OpenShift ... 219 8.6 ... Abschließende LTS-Betrachtungen ... 220 8.7 ... Kubernetes-Basics - Aufbau des Systems ... 222 8.8 ... Kubernetes-Basics - Ressourcen/Workloads ... 225 8.9 ... Sonstige im Folgenden verwendete, Kubernetes-spezifische Tools ... 236 9. Preflights für GPU-Accelerated Container-Cluster: Operatoren ... 241 9.1 ... Generelle Vorbetrachtungen zum Thema Operatoren ... 241 9.2 ... Operator-Typen und Maturitäts-Level: Helm vs. Ansible vs. Go ... 247 9.3 ... Die wichtige Rolle von Operatoren im auto-skalierbaren KI/ML-Stack ... 250 9.4 ... NVIDIAs GPU-Operator - die Architektur ... 251 9.5 ... Automatische Provisionierung eines Nodes durch den GPU-Operator ... 258 9.6 ... NVIDIAs Network-Operator - die Architektur ... 268 9.7 ... Komponenten des Network-Operators im Überblick ... 270 10. OpenShift (GPU-Accelerated) - Multiplatform (Cloud und On-Premises) ... 273 10.1 ... Theoretische Vorbetrachtungen ... 273 10.2 ... Konzeptionelle Vorbetrachtungen zum Setup (On-Prem mit vSphere) ... 275 10.3 ... On-Premises: OpenShift 4.10-Setup - Installer Provisioned Infrastructure (IPI) auf vSphere ... 277 10.4 ... Preflights für skalierbare GPU-Nodes unter OpenShift: MachineSets, MachineConfigs und Machine-/Cluster-Autoscaler ... 286 10.5 ... Cluster-Autoscaler/Machine-Autoscaler ... 294 10.6 ... vGPU-/MIG-spezifisches Setup des OpenShift-Clusters: NFD- und GPU-Operator ... 306 10.7 ... Automatisches vGPU-Node-Setup per Operator - OpenShift-MachineSet mit Tesla T4 ... 320 10.8 ... Automatisches MIG-Slice-Setup per Operator - A30 on-premises ... 327 10.9 ... Cloud: GPU-MachineSets in OpenShift 4.10 unter GCP mit A100-Instanzen (MIG-Partitionen via Operator) ... 333 10.10 ... GPU-Sharing/-Overcommitment ... 353 10.11 ... Setup des Network-Operators (OpenShift on vSphere [IPI]) für GPUDirect RDMA ... 371 10.12 ... KI/ML-System-Performance-Test (OpenShift on DGX) ... 386 10.13 ... GPU-Dashboard für OpenShift ... 387 11. GKE - Google Kubernetes Engine Cluster (GPU-Accelerated) ... 389 11.1 ... Überblick ... 389 11.2 ... Setup-Variante 1: GKE-Cluster mit separatem Node-Pool für GPU-Nodes ... 390 11.3 ... Setup-Variante 2: GPU-Cluster auf GKE direkt ausrollen ... 395 TEIL III. ML-Stacks für skalierbare KI/ML-Infrastrukturen ... 397 12. CI/CD-Pipelines, GitOps und MLOps ... 399 12.1 ... Von der (ML-)Insel zur Pipeline ... 399 12.2 ... CI/CD und GitOps ... 400 12.3 ... GitOps-Pipeline-Modelle ... 401 12.4 ... MLOps, LTS und Portierbarkeit ... 404 13. ML-Pipeline- und AI-End-to-End-Implementierungen mit Kubeflow/Vertex AI, Open Data Hub und NVIDIA AI Enterprise ... 411 13.1 ... ML-Pipeline-Implementierungen in Kubernetes-basierten Clustern ... 411 13.2 ... Kubeflow ... 417 13.3 ... Hands-on: Kubeflow unter GKE in der Praxis ... 422 13.4 ... Open Data Hub ... 430 13.5 ... Hands-on: Open-Data-Hub-Setup unter OpenShift ... 433 13.6 ... NVIDIA AI Enterprise (AI-End-to-End-relevante Betrachtungen) ... 442 13.7 ... Hands-on: NVIDIA AI Enterprise (AI End-to-End) unter OpenShift ... 447 14. The Road Ahead ... 459 Index ... 463

Technik
Sie können dieses eBook zum Beispiel mit den folgenden Geräten lesen:
• tolino Reader 
Laden Sie das eBook direkt über den Reader-Shop auf dem tolino herunter oder übertragen Sie das eBook auf Ihren tolino mit einer kostenlosen Software wie beispielsweise Adobe Digital Editions. 
• Sony Reader & andere eBook Reader 
Laden Sie das eBook direkt über den Reader-Shop herunter oder übertragen Sie das eBook mit der kostenlosen Software Sony READER FOR PC/Mac oder Adobe Digital Editions auf ein Standard-Lesegeräte. 
• Tablets & Smartphones 
Möchten Sie dieses eBook auf Ihrem Smartphone oder Tablet lesen, finden Sie hier unsere kostenlose Lese-App für iPhone/iPad und Android Smartphone/Tablets. 
• PC & Mac 
Lesen Sie das eBook direkt nach dem Herunterladen mit einer kostenlosen Lesesoftware, beispielsweise Adobe Digital Editions, Sony READER FOR PC/Mac oder direkt über Ihre eBook-Bibliothek in Ihrem Konto unter „Meine eBooks“ -  „online lesen“.
 
Bitte beachten Sie, dass die Kindle-Geräte das Format nicht unterstützen und dieses eBook somit nicht auf Kindle-Geräten lesbar ist.
Hersteller
Libri GmbH
Friedensallee 273

DE - 22763 Hamburg

E-Mail: GPSR@libri.de

Website: www.libri.de

Das könnte Sie auch interessieren

Aldous Huxley
Zeit der Oligarchen
Buch (Hardcover)
Lieferbar innerhalb von 1-2 Wochen
14,00
Julia Ruhs
Links-grüne Meinungsmacht
Buch (Softcover)
Sofort lieferbar
20,00
Sarah Kuttner
Mama & Sam
Buch (Hardcover)
Sofort lieferbar
24,00
Katharina Zweig
Weiß die KI, dass sie nichts weiß?
Buch (Softcover)
Sofort lieferbar
20,00
Martin Andree
Krieg der Medien
Buch (Hardcover)
Sofort lieferbar
28,00
Tim Berners-Lee
This Is for Everyone
Buch (Hardcover)
Sofort lieferbar
28,00
Marc-Uwe Kling
Der Tag, an dem die Oma das Internet kaputt...
Buch (Hardcover)
Sofort lieferbar
12,00
Sofort lieferbar
3,50
Christoph Engemann
Die Zukunft des Lesens
Buch (Softcover)
Sofort lieferbar
14,00
Jörg Rieger Espind...
Windows 11 für Senioren
Buch (Softcover)
Sofort lieferbar
19,90
Annekathrin Kohout
Hyperreaktiv
Buch (Softcover)
Sofort lieferbar
18,00
Aya Jaff
Broligarchie
Buch (Hardcover)
Lieferbar innerhalb von 1-2 Wochen
23,99
Sofort lieferbar
19,90
Frank-Michael Becker
Formelsammlung bis zum Abitur - Mathematik ...
Buch (Softcover)
Sofort lieferbar
16,50
Ursula Poznanski
Erebos 2
Buch (Hardcover)
Sofort lieferbar
19,95
Douglas Rushkoff
Survival of the Richest
Buch (Softcover)
Sofort lieferbar
22,00
Keach Hagey
Sam Altman
Buch (Hardcover)
Sofort lieferbar
28,00
Jimmy Wales
TRUST
Buch (Hardcover)
Sofort lieferbar
24,00
Cornelia Lohs
Der inoffizielle James Bond Reiseführer
Buch (Softcover)
Lieferbar innerhalb von 1-2 Wochen
19,99
Johannes Knörzer
Ein Quantum Zukunft - Quantenphysik und Qua...
Buch (Softcover)
Lieferbar innerhalb von 5-7 Tagen
24,99
Vera Weidenbach
Ada Lovelace
Buch (Hardcover)
Sofort lieferbar
24,00
Ingo Dachwitz
Digitaler Kolonialismus
Buch (Hardcover)
Sofort lieferbar
28,00
Johanna Pirker
The Game is On
Buch (Hardcover)
Sofort lieferbar
26,00
Robert Klaßen
Windows 11
Buch (Softcover)
Sofort lieferbar
12,90
Lieferbar innerhalb von 1-2 Wochen
19,95
Lieferbar innerhalb von 1-2 Wochen
28,99
Rainer Hattenhauer
ChatGPT u. Co.
Buch (Softcover)
Sofort lieferbar
24,90
Tara-Louise Wittwer
Sorry, aber ...
Buch (Softcover)
Lieferbar innerhalb von 1-2 Wochen
18,00
Albert Wiedemann
Informatik (Oldenbourg) Band 7: Grundkurs ...
Buch (Hardcover)
Lieferbar innerhalb von 2 Wochen
33,50
Oliver Bock
ChatGPT - Das Praxisbuch
Buch (Softcover)
Sofort lieferbar
19,95
Steffen Mau
Triggerpunkte
Buch (Softcover)
Lieferbar innerhalb von 1-2 Wochen
25,00
Christian Immler
WhatsApp - optimal nutzen - neueste Version...
Buch (Softcover)
Sofort lieferbar
12,95
Inga Strümke
Künstliche Intelligenz
Buch (Hardcover)
Sofort lieferbar
24,90
Dirk Becker
Einstieg in Linux Mint 22
Buch (Softcover)
Sofort lieferbar
29,90
@Kriegundfreitag
Psyche, du kleiner Schlingel
Buch (Hardcover)
Sofort lieferbar
14,00
Kim Beck
Basiskurs Medienbildung.Gesamtkurs
Buch (Softcover)
Sofort lieferbar
8,00