Programmering

Hvad er big data analytics? Hurtige svar fra forskellige datasæt

Der er data, og så er der store data. Så hvad er forskellen?

Big data defineret

En klar definition af big data kan være vanskelig at fastlægge, fordi big data kan dække en lang række brugssager. Men generelt henviser udtrykket til datasæt, der er så store i volumen og så komplekse, at traditionelle databehandlingssoftwareprodukter ikke er i stand til at indfange, administrere og behandle dataene inden for en rimelig tid.

Disse store datasæt kan omfatte strukturerede, ustrukturerede og semistrukturerede data, som hver især kan udvindes til indsigt.

Hvor meget data der faktisk udgør "stor" er åben for debat, men det kan typisk være i multipler af petabyte - og for de største projekter i exabyteområdet.

Ofte er big data karakteriseret ved de tre V'er:

  • en ekstrem bind af data
  • i udlandet bred vifte af datatyper
  • det hastighed hvor data skal behandles og analyseres

De data, der udgør store datalagre, kan komme fra kilder, der inkluderer websteder, sociale medier, desktop- og mobilapps, videnskabelige eksperimenter og - i stigende grad - sensorer og andre enheder på internet af ting (IoT).

Begrebet big data kommer med et sæt relaterede komponenter, der gør det muligt for organisationer at anvende dataene til praktisk brug og løse en række forretningsproblemer. Disse inkluderer den nødvendige IT-infrastruktur til understøttelse af big data-teknologier, analysen anvendt på dataene; de store dataplatforme, der er nødvendige til projekter, relaterede færdigheder, og de faktiske brugssager, der giver mening for big data.

Hvad er dataanalyse?

Hvad der virkelig leverer værdi fra alle big data-organisationer, der samler, er den analyse, der anvendes på dataene. Uden analyse, som involverer at undersøge dataene for at opdage mønstre, korrelationer, indsigt og tendenser, er dataene bare en flok af nuller og nuller med begrænset forretningsbrug.

Ved at anvende analyser til big data kan virksomheder se fordele som øget salg, forbedret kundeservice, større effektivitet og et generelt løft i konkurrenceevnen.

Dataanalyse involverer at undersøge datasæt for at få indsigt eller drage konklusioner om, hvad de indeholder, såsom tendenser og forudsigelser om fremtidig aktivitet.

Ved at analysere information ved hjælp af store dataanalyseværktøjer kan organisationer træffe bedre informerede forretningsbeslutninger, såsom hvornår og hvor de skal køre en marketingkampagne eller introducere et nyt produkt eller en ny tjeneste.

Analytics kan henvise til grundlæggende business intelligence-applikationer eller mere avancerede, forudsigende analyser som dem, der bruges af videnskabelige organisationer. Blandt den mest avancerede type dataanalyse er datamining, hvor analytikere vurderer store datasæt for at identificere forhold, mønstre og tendenser.

Dataanalyse kan omfatte sonderende dataanalyse (for at identificere mønstre og relationer i data) og bekræftende dataanalyse (anvendelse af statistiske teknikker for at finde ud af, om en antagelse om et bestemt datasæt er sandt.

En anden skelnen er kvantitativ dataanalyse (eller analyse af numeriske data, der har kvantificerbare variabler, der kan sammenlignes statistisk) versus kvalitativ dataanalyse (som fokuserer på ikke-numeriske data såsom video, billeder og tekst).

IT-infrastruktur til understøttelse af big data

For at konceptet med big data skal fungere, skal organisationer have infrastrukturen til at indsamle og huse dataene, give adgang til dem og sikre oplysningerne, mens de opbevares og er i transit. Dette kræver implementering af store dataanalyseværktøjer.

På et højt niveau inkluderer disse lagersystemer og servere designet til big data, datastyrings- og integrationssoftware, business intelligence og dataanalysesoftware og big data-applikationer.

Meget af denne infrastruktur vil sandsynligvis være lokalt, da virksomheder ser ud til at fortsætte med at udnytte deres datacenterinvesteringer. Men i stigende grad er organisationer afhængige af cloud computing-tjenester til at håndtere meget af deres store datakrav.

Dataindsamling kræver kilder til at indsamle dataene. Mange af disse - såsom webapplikationer, sociale mediekanaler, mobilapps og e-mail-arkiver - er allerede på plads. Men efterhånden som IoT bliver forankret, skal virksomheder muligvis installere sensorer på alle mulige enheder, køretøjer og produkter for at indsamle data samt nye applikationer, der genererer brugerdata. (IoT-orienteret big data-analyse har sine egne specialiserede teknikker og værktøjer.)

For at gemme alle de indgående data skal organisationer have tilstrækkelig datalagring på plads. Blandt lagringsmulighederne er traditionelle datavarehuse, datasøer og skybaseret opbevaring.

Sikkerhedsinfrastrukturværktøjer kan omfatte datakryptering, brugergodkendelse og anden adgangskontrol, overvågningssystemer, firewalls, virksomheds mobilitetsstyring og andre produkter til beskyttelse af systemer og data,

Big data teknologier

Ud over den foregående it-infrastruktur, der generelt bruges til data. Der er flere teknologier, der er specifikke for big data, som din it-infrastruktur skal understøtte.

Hadoop økosystem

Hadoop er en af ​​de teknologier, der er mest forbundet med big data. Apache Hadoop-projektet udvikler open source-software til skalerbar, distribueret computing.

Hadoop softwarebiblioteket er en ramme, der muliggør distribueret behandling af store datasæt på tværs af klynger af computere ved hjælp af enkle programmeringsmodeller. Det er designet til at skalere op fra en enkelt server til tusinder, hver med lokal beregning og lagring.

Projektet indeholder flere moduler:

  • Hadoop Common, de almindelige værktøjer, der understøtter andre Hadoop-moduler
  • Hadoop Distribueret filsystem, som giver adgang til applikationsdata med høj kapacitet
  • Hadoop YARN, en ramme for jobplanlægning og klyngeressourcestyring
  • Hadoop MapReduce, et YARN-baseret system til parallel behandling af store datasæt.

Apache Spark

En del af Hadoop-økosystemet, Apache Spark, er en open source-klyngecomputer-ramme, der fungerer som en motor til behandling af store data inden for Hadoop. Spark er blevet et af de vigtigste store datadistribuerede behandlingsrammer og kan implementeres på en række forskellige måder. Det giver native bindinger til Java, Scala, Python (især Anaconda Python distro) og R programmeringssprog (R er især velegnet til big data), og det understøtter SQL, streaming af data, maskinindlæring og grafbehandling.

Datasøer

Datasøer er lageropbevaringssteder, der indeholder ekstremt store mængder rådata i dets oprindelige format, indtil dataene er nødvendige af forretningsbrugere. Digitale transformationsinitiativer og væksten i IoT hjælper med at fremme væksten i datasøer. Datasøer er designet til at gøre det lettere for brugerne at få adgang til store mængder data, når behovet opstår.

NoSQL-databaser

Konventionelle SQL-databaser er designet til pålidelige transaktioner og ad hoc-forespørgsler, men de kommer med begrænsninger såsom stift skema, der gør dem mindre egnede til nogle typer applikationer. NoSQL-databaser adresserer disse begrænsninger og gemmer og administrerer data på måder, der giver mulighed for høj driftshastighed og stor fleksibilitet. Mange blev udviklet af virksomheder, der søgte bedre måder at gemme indhold eller behandle data på massive websteder. I modsætning til SQL-databaser kan mange NoSQL-databaser skaleres vandret på tværs af hundreder eller tusinder af servere.

In-memory databaser

En in-memory database (IMDB) er et databasestyringssystem, der primært er afhængig af hovedhukommelse snarere end disk til datalagring. In-memory databaser er hurtigere end diskoptimerede databaser, en vigtig overvejelse ved anvendelse af big data analytics og oprettelse af datalager og data marts.

Big data færdigheder

Big data og big data analytics bestræbelser kræver specifikke færdigheder, uanset om de kommer indefra i organisationen eller gennem eksterne eksperter.

Mange af disse færdigheder er relateret til nøglekomponenterne for stor datateknologi, såsom Hadoop, Spark, NoSQL-databaser, in-memory-databaser og analysesoftware.

Andre er specifikke for discipliner som datavidenskab, datamining, statistisk og kvantitativ analyse, datavisualisering, generel programmering og datastruktur og algoritmer. Der er også et behov for, at folk med overordnede ledelsesevner kan se big dataprojekter til afslutning.

I betragtning af hvor almindelige big data-analyseprojekter er blevet og manglen på mennesker med denne type færdigheder, kan det være en af ​​de største udfordringer for organisationer at finde erfarne fagfolk.

Big data analytics bruger sager

Big data og analyser kan anvendes på mange forretningsproblemer og brugssager. Her er et par eksempler:

  • Kundeanalyse. Virksomheder kan undersøge kundedata for at forbedre kundeoplevelsen, forbedre konverteringsfrekvenser og øge fastholdelsen.
  • Operationel analyse. Forbedring af den operationelle ydeevne og bedre udnyttelse af virksomhedernes aktiver er målene for mange virksomheder. Big data-analyseværktøjer kan hjælpe virksomheder med at finde måder til at operere mere effektivt og forbedre ydeevnen.
  • Forebyggelse af svig. Big data-værktøjer og analyser kan hjælpe organisationer med at identificere mistænkelig aktivitet og mønstre, der kan indikere uredelig adfærd og hjælpe med at mindske risici.
  • Prisoptimering. Virksomheder kan bruge big data-analyse til at optimere de priser, de opkræver for produkter og tjenester, hvilket hjælper med at øge omsætningen.