Programmering

Qubole anmeldelse: Selvbetjening af big data-analyse

Faktureret som en cloud-native dataplatform til analyse, AI og maskinindlæring, tilbyder Qubole løsninger til kundeengagement, digital transformation, datadrevne produkter, digital markedsføring, modernisering og sikkerhedsinformation. Det kræver hurtig tid til værdi, multi-cloud support, 10x administrator produktivitet, et forhold mellem operatør og bruger 1: 200 og lavere skyomkostninger.

Hvad Qubole faktisk gør, baseret på min korte erfaring med platformen, er at integrere et antal open source-værktøjer og et par proprietære værktøjer til at skabe en skybaseret, selvbetjent big data-oplevelse for dataanalytikere, dataingeniører og dataforskere.

Qubole tager dig fra ETL gennem sonderende dataanalyse og modelbygning til implementering af modeller i produktionsskala. Undervejs automatiserer det en række skyoperationer, såsom klargøring og skalering af ressourcer, der ellers kan kræve betydelige mængder administratortid. Hvorvidt denne automatisering rent faktisk vil tillade en 10x forøgelse af administratorens produktivitet eller et forhold mellem operatør og bruger 1: 200 for et bestemt firma eller brugssag er ikke klart.

Qubole har en tendens til at slå på begrebet "aktive data". Dybest set har de fleste datasøer - som i det væsentlige er fillagre fyldt med data fra mange kilder, alt sammen ét sted, men ikke i en database - en lav procentdel af data, der bruges aktivt til analyse. Qubole vurderer, at de fleste datasøer er 10% aktive og 90% inaktive og forudsiger, at det kan vende dette forhold.

Konkurrenter til Qubole inkluderer Databricks, AWS og Cloudera. Der er en række andre produkter, der kun konkurrerer med nogle af Quboles funktioner.

Databricks bygger notesbøger, dashboards og job oven på en cluster manager og Spark; Jeg fandt det en nyttig platform for dataforskere, da jeg gennemgik det i 2016. Databrikker åbnede for nylig sit Delta Lake-produkt, som leverer ACID-transaktioner, skalerbar metadatahåndtering og samlet streaming og batch-databehandling til datasøer for at gøre dem mere pålidelige og for at hjælpe dem med at fodre gnistanalyse.

AWS har en bred vifte af dataprodukter, og faktisk understøtter Qubole integration med mange af dem. Cloudera, som nu inkluderer Hortonworks, leverer datalager- og maskinindlæringstjenester samt en datahubtjeneste. Qubole hævder, at både Databricks og Cloudera mangler økonomisk styring, men du kan selv implementere governance på single-cloud-niveauet eller ved at bruge et multi-cloud management-produkt.

Sådan fungerer Qubole

Qubole integrerer alle sine værktøjer i et skybaseret og browserbaseret miljø. Jeg vil diskutere miljøstykkerne i det næste afsnit af denne artikel; i dette afsnit vil jeg koncentrere mig om værktøjerne.

Qubole udfører omkostningskontrol som en del af sin klyngestyring. Du kan specificere, at klynger bruger en bestemt blanding af forekomststyper, inklusive spotforekomster, når de er tilgængelige, og det mindste og maksimale antal noder til autoskalering. Du kan også angive, hvor lang tid en klynge fortsætter med at køre i mangel af belastning, for at undgå "zombie" -forekomster.

Gnist

I sin artikel i august, "Hvordan Qubole adresserer Apache Spark-udfordringer", diskuterer Quboles administrerende direktør Ashish Thusoo fordelene og faldgruberne ved Spark, og hvordan Qubole afhjælper vanskeligheder som konfiguration, ydeevne, omkostninger og ressourcehåndtering. Spark er en nøglekomponent i Qubole for dataforskere, der muliggør nem og hurtig datatransformation og maskinlæring.

Presto

Presto er en open source distribueret SQL-forespørgselmotor til kørsel af interaktive analytiske forespørgsler mod datakilder i alle størrelser, lige fra gigabyte til petabyte. Presto-forespørgsler kører meget hurtigere end Hive-forespørgsler. På samme tid kan Presto se og bruge Hive-metadata og dataskemaer.

Hive

Apache Hive er et populært open source-projekt i Hadoop-økosystemet, der letter læsning, skrivning og styring af store datasæt, der ligger i distribueret lager ved hjælp af SQL. Struktur kan projiceres på data, der allerede er lagret. Hive-forespørgsel køres via Apache Tez, Apache Spark eller MapReduce. Hive on Qubole kan udføre arbejdsbelastnings-autoskalering og direkte skrivning open source Hive mangler disse skyorienterede optimeringer.

Grundlæggerne af Qubole var også skaberne af Apache Hive. De startede Hive på Facebook og åbnede det i 2008.

Kvantum

Quantum er Quboles egen serverløse, autoskalning, interaktive SQL-forespørgselsmotor, der understøtter både Hive DDL og Presto SQL. Quantum er en pay-as-you-go-tjeneste, der er omkostningseffektiv for sporadiske forespørgselsmønstre, der spredes over lange perioder og har en streng tilstand for at forhindre uventet forbrug. Quantum bruger Presto og supplerer at have Presto-serverklynger. Kvanteforespørgsler er begrænset til 45 minutters driftstid.

Luftstrøm

Airflow er en Python-baseret platform til programmatisk at oprette, planlægge og overvåge arbejdsgange. Arbejdsprocesserne er dirigerede acykliske grafer (DAG'er) af opgaver. Du konfigurerer DAG'erne ved at skrive rørledninger i Python-kode. Qubole tilbyder Airflow som en af ​​sine tjenester; det bruges ofte til ETL.

Den nye QuboleOperator kan bruges ligesom enhver anden eksisterende luftstrømsoperatør. Under udførelsen af ​​operatøren i arbejdsgangen sender den en kommando til Qubole Data Service og venter, indtil kommandoen er færdig. Qubole understøtter fil- og Hive-bordsensorer, som Airflow kan bruge til programmatisk at overvåge arbejdsgange.

For at se Airflow-brugergrænsefladen skal du først starte en Airflow-klynge og derefter åbne klyngesiden for at se Airflow-webstedet.

RubiX

RubiX er Quboles lette cache-ramme for data, der kan bruges af et big data-system, der bruger et Hadoop-filsystemgrænseflade. RubiX er designet til at arbejde med cloud-lagringssystemer som Amazon S3 og Azure Blob Storage og til at cache fjernfiler på en lokal disk. Qubole har frigivet RubiX til open source. Aktivering af RubiX i Qubole er et spørgsmål om at markere et felt.

Hvad gør Qubole?

Qubole giver en end-to-end platform til analyse og datalogi. Funktionaliteten er fordelt på et dusin moduler.

Udforsk-modulet giver dig mulighed for at se dine datatabeller, tilføje datalagre og opsætte dataudveksling. På AWS kan du se dine dataforbindelser, dine S3-skovle og dine Qubole Hive-datalagre.

Modulerne Analyse og Workbench giver dig mulighed for at køre ad hoc-forespørgsler på dine datasæt. Analyse er den gamle grænseflade, og Workbench er den nye grænseflade, som stadig var i beta, da jeg prøvede det. Begge grænseflader giver dig mulighed for at trække og slippe datafelter til dine SQL-forespørgsler og vælge den motor, du bruger til at køre operationerne: Quantum, Hive, Presto, Spark, en database, en shell eller Hadoop.

Smart Query er en formbaseret SQL-forespørgselbygger til Hive og Presto. Skabeloner giver dig mulighed for at genbruge parametriserede SQL-forespørgsler.

Notebooks er Spark-baserede Zeppelin eller (i beta) Jupyter notebooks til datalogi. Dashboards giver en grænseflade til deling af dine udforskninger uden at give adgang til dine notesbøger.

Planlægning lader dig køre forespørgsler, arbejdsgange, dataimport og -eksport og kommandoer automatisk med mellemrum. Det supplerer de ad hoc-forespørgsler, du kan køre i modulerne Analyse og Workbench.

Clusters-modulet giver dig mulighed for at administrere dine klynger af Hadoop / Hive, Spark, Presto, Airflow og deep learning (beta) servere. Brug lader dig spore din klynge- og forespørgsel. Kontrolpanelet giver dig mulighed for at konfigurere platformen, enten for dig selv eller for andre, hvis du har tilladelser til systemadministration.

Qubole end-to-end gennemgang

Jeg gennemgik en gennemgang af import af en database, oprettelse af et Hive-skema og analyse af resultatet med Hive og Presto og separat i en Spark-notesbog. Jeg kiggede også på en Airflow DAG til den samme proces og på en notesbog til maskinindlæring med Spark på et ikke-relateret datasæt.

Dyb læring i Qubole

Vi har set datalogi i Qubole op til niveauet for klassisk maskinindlæring, men hvad med dyb læring? En måde at opnå dyb læring i Qubole er at indsætte Python-trin i dine notesbøger, der importerer dyb læringsrammer som TensorFlow og bruge dem på de datasæt, der allerede er udviklet med Spark. En anden er at kalde til Amazon SageMaker fra notesbøger eller Airflow, forudsat at din Qubole-installation kører på AWS.

Det meste af det, du laver i Qubole, kræver ikke, at du kører på GPU'er, men dyb læring har ofte brug for GPU'er, for at træningen kan gennemføres på en rimelig tid. Amazon SageMaker tager sig af det ved at køre de dybe læringstrin i separate klynger, som du kan konfigurere med så mange noder og GPU'er som nødvendigt. Qubole tilbyder også Machine Learning-klynger (i beta); på AWS giver disse mulighed for accelererede g-type og p-type medarbejdernoder med Nvidia GPU'er, og på Google Cloud Platform og Microsoft Azure tillader de tilsvarende accelererede medarbejdernoder.

Big data-værktøjssæt i skyen

Qubole, en cloud-native dataplatform til analyse og maskinindlæring, hjælper dig med at importere datasæt til en datasø, opbygge skemaer med Hive og forespørge på data med Hive, Presto, Quantum og Spark. Det bruger både notesbøger og Airflow til at konstruere arbejdsgange. Det kan også kalde til andre tjenester og bruge andre biblioteker, for eksempel Amazon SageMaker-tjenesten og TensorFlow Python-biblioteket til dyb læring.

Qubole hjælper dig med at styre dine skyudgifter ved at kontrollere blandingen af ​​forekomster i en klynge, starte og autoskalere klynger efter behov og automatisk lukke klynger, når de ikke er i brug. Det kører på AWS, Microsoft Azure, Google Cloud Platform og Oracle Cloud.

Samlet set er Qubole en meget god måde at drage fordel af (eller "aktivere") din datasø, isolerede databaser og big data. Du kan teste Qubole gratis i 14 dage på dit valg af AWS, Azure eller GCP med eksempeldata. Du kan også arrangere en gratis prøveversion med fuld funktion i op til fem brugere og en måned ved hjælp af din egen cloudinfrastrukturkonto og dine egne data.

Koste: Test- og prøvekonti, gratis. Enterprise-platform, $ 0,14 pr. QCU (Qubole Compute Unit) pr. Time.

Platform: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.