Programmering

Apache Spark 3.0 tilføjer Nvidia GPU-understøttelse til maskinindlæring

Apache Spark, den store databehandlingsramme i hukommelsen, bliver fuldstændigt GPU-accelereret i sin snart inkarnation 3.0-inkarnation. Bedst af alt, nutidens Spark-applikationer kan drage fordel af GPU-accelerationen uden ændringer; eksisterende Spark API'er fungerer alle som de er.

GPU-accelerationskomponenterne, leveret af Nvidia, er designet til at supplere alle faser af Spark-applikationer, herunder ETL-operationer, maskinlæringstræning og inferenceservering.

Nvidias Spark-bidrag trækker på RAPIDS-pakken med GPU-accelererede datavidenskabsbiblioteker. Mange af RAPIDS 'interne datastrukturer, som datarammer, supplerer Sparks egne, men det har taget næsten fire års arbejde at få Spark til at bruge RAPIDS indfødt.

Spark 3.0 speedups kommer ikke kun fra GPU-acceleration. Spark 3.0 høster også ydeevne ved at minimere dataflytning til og fra GPU'er. Når data skal flyttes over en klynge, skifter Unified Communication X-rammen dem direkte fra en blok GPU-hukommelse til en anden med minimal overhead.

Ifølge Nvidia gav en preview-frigivelse af Spark 3.0, der kørte på Databricks-platformen, en syv gange forbedring af ydeevnen, når man bruger GPU-acceleration, selvom detaljer om arbejdsbelastningen og dens datasæt ikke var tilgængelige.

Der er ikke givet nogen fast dato for generel tilgængelighed af Spark 3.0. Du kan downloade eksempler på udgivelser fra webstedet Apache Spark-projektet.