Programmering

4 grunde til, at big data-projekter mislykkes - og 4 måder at lykkes på

Big-dataprojekter er godt, store i størrelse og omfang, ofte meget ambitiøse og alt for ofte komplette fiaskoer. I 2016 anslog Gartner, at 60 procent af big data-projekter mislykkedes. Et år senere sagde Gartner-analytiker Nick Heudecker, at hans firma var "for konservativ" med sit estimat på 60 procent og satte fejlprocenten nærmere 85 procent. I dag siger han, at intet har ændret sig.

Gartner er ikke alene om denne vurdering. Langtids Microsoft-direktør og (indtil for nylig) Snowflake Computing-administrerende direktør Bob Muglia fortalte analysesitet Datanami: ”Jeg kan ikke finde en glad Hadoop-kunde. Det er lidt så simpelt som det. ... Antallet af kunder, der rent faktisk har tæmmet Hadoop, er sandsynligvis mindre end 20, og det kan være færre end ti. Det er bare nødder i betragtning af hvor længe det produkt, teknologien har været på markedet, og hvor meget generel industrienergi er gået i det. ” Hadoop er selvfølgelig motoren, der lancerede big data-manien.

Andre mennesker, der er fortrolige med big data, siger også, at problemet fortsat er reelt, alvorligt og ikke helt et teknologisk. Faktisk er teknologi en mindre årsag til fiasko i forhold til de virkelige syndere. Her er de fire hovedårsager til, at big data-projekter mislykkes - og fire vigtige måder, hvorpå du kan få succes.

Big data problem nr. 1: Dårlig integration

Heudecker sagde, at der er et stort teknologisk problem bag big data-fiaskoer, og det er at integrere siled data fra flere kilder for at få den indsigt, som virksomhederne ønsker. Det er simpelthen ikke let at oprette forbindelser til nedlagte, ældre systemer. Integrationsomkostninger er fem til ti gange prisen på software, sagde han. ”Det største problem er enkel integration: Hvordan forbinder du flere datakilder for at få et slags resultat? Meget gå data sø ruten og tænk, hvis jeg forbinder alt til noget magi vil ske. Det er ikke tilfældet, ”sagde han.

Siled data er en del af problemet. Klienter har fortalt ham, at de trak data fra registreringssystemer til et fælles miljø som en datasø og ikke kunne finde ud af, hvad værdierne betød. "Når du trækker data ind i en datasø, hvordan ved du hvad det nummer 3 betyder?" Spurgte Heudecker.

Fordi de arbejder i siloer eller skaber datasøer, der kun er datasumpe, skraber de bare overfladen af, hvad de kunne udrette, sagde Alan Morrison, seniorforsker med PwC. ”De forstår ikke alle forhold i data, der skal udvindes eller udledes og gøres eksplicitte, så maskiner tilstrækkeligt kan fortolke disse data. De er nødt til at oprette et vidensgraflag, så maskiner kan fortolke alle de instansdata, der er kortlagt nedenunder. Ellers har du lige fået en datasø, der er en datasump, ”sagde han.

Big data problem nr. 2: udefinerede mål

Du tror, ​​de fleste mennesker, der foretager et big data-projekt, faktisk ville have et mål i tankerne, men et overraskende antal gør det ikke. De starter bare projektet med målet som en eftertanke.

”Du skal ramme problemet godt. Folk tror, ​​at de kan forbinde strukturerede og ustrukturerede data og få den indsigt, du har brug for. Du er nødt til at definere problemet godt foran. Hvad er den indsigt, du ønsker at få? Det har en klar definition af problemet og definerer det godt foran, ”sagde Ray Christopher, produktmarkedsføringschef hos Talend, et dataintegrationssoftwarefirma.

Joshua Greenbaum, en hovedanalytiker hos Enterprise Application Consulting, sagde, at en del af det, der har bedeviled både big data- og datalagerprojekter, er de vigtigste vejledende kriterier er typisk akkumulering af store datamængder og ikke løsningen af ​​diskrete forretningsproblemer.

”Hvis du samler store mængder data, får du en datadump. Jeg kalder det en sanitær deponi. Dumps er ikke et godt sted at finde løsninger, ”sagde Greenbaum. "Jeg fortæller altid klienterne beslutte, hvilket diskret forretningsproblem der skal løses først, og gå med det, og se derefter på kvaliteten af ​​de tilgængelige data og løse dataproblemet, når forretningsproblemet er identificeret."

”Hvorfor mislykkes de fleste big data-projekter? For det første mangler de fleste store dataprojektledere vision, ”sagde PwCs Morrison. ”Virksomheder er forvirrede over big data. De fleste tænker bare på numeriske data eller black box NLP- og genkendelsesmotorer, og det gør simpel tekstminedrift og andre former for mønstergenkendelse. ”

Big data problem nr. 3: Færdighedsgabet

Alt for ofte tror virksomhederne, at de interne færdigheder, de har opbygget til datalagring, vil oversættes til big data, når det helt klart ikke er tilfældet. Til at begynde med håndterer datalager og big data data i modsat retning: Data warehousing udfører skema ved skrivning, hvilket betyder, at dataene renses, behandles, struktureres og organiseres, før de nogensinde går ind i datalageret.

I store data akkumuleres data, og skema ved læsning anvendes, hvor dataene behandles, når de læses. Så hvis databehandling går tilbage fra en metode til en anden, kan du vædde på, at færdigheder og værktøjer også er. Og det er kun et eksempel.

”Færdigheder vil altid være en udfordring. Hvis vi taler om big data om 30 år fra nu, vil der stadig være en udfordring, ”sagde Heudecker. ”Mange mennesker hænger deres hat på Hadoop. Mine klienter udfordres til at finde Hadoop-ressourcer. Gnist er lidt bedre, fordi stakken er mindre og lettere at træne op. Hadoop er snesevis af softwarekomponenter. ”

Big data-problem nr. 4: Teknologiproduktionsgabet

Big-dataprojekter stammer ofte fra ældre datasiloer og forsøger at fusionere dem med nye datakilder som sensorer eller webtrafik eller sociale medier. Det er ikke helt virksomhedens skyld, som indsamlede disse data på et tidspunkt før ideen om big data-analyse, men det er ikke desto mindre et problem.

"Næsten den største færdighed, der mangler, er evnen til at forstå, hvordan man blander disse to interessenter for at få dem til at arbejde sammen for at løse komplekse problemer," sagde konsulent Greenbaum. ”Datasiloer kan være en barriere for big data-projekter, fordi der ikke er nogen standard noget. Så når de begynder at se på planlægning, finder de ud af, at disse systemer ikke er implementeret på nogen måde, at disse data vil blive genbrugt, ”sagde han.

"Med forskellige arkitekturer er du nødt til at behandle forskelligt," sagde Talends Christopher. ”Tekniske færdigheder og arkitekturforskelle var en almindelig årsag til, at du ikke kan tage aktuelle værktøjer til et lokalt datalager og integrere det med et big data-projekt - fordi disse teknologier bliver for dyre til at behandle nye data. Så du har brug for Hadoopand Spark, og du skal lære nye sprog. ”

Big data-løsning nr. 1: Planlæg fremad

Det er en gammel kliché, men anvendelig her: Hvis du ikke planlægger, planlæg at mislykkes. "Succesrige virksomheder er dem, der har et resultat," sagde Gartners Heudecker. “Vælg noget lille og opnåeligt og nyt. Tag ikke ældre brugssager, fordi du får begrænsninger. "

"De er nødt til at tænke over dataene først og modellere deres organisationer på en maskinlæsbar måde, så dataene tjener den organisation," sagde PwCs Morrison.

Big data-løsning nr. 2: Arbejd sammen

Alt for ofte udelades interessenter fra big data-projekter - de mennesker, der ville bruge resultaterne. Hvis alle interessenter samarbejder, kan de overvinde mange vejspærringer, sagde Heudecker. ”Hvis de dygtige mennesker arbejder sammen og arbejder med forretningssiden for at levere handlingsmæssige resultater, kan det hjælpe,” sagde han.

Heudecker bemærkede, at de virksomheder, der lykkes med big data, investerer meget i de nødvendige færdigheder. Han ser dette mest i datadrevne virksomheder som finansielle tjenester, Uber, Lyft og Netflix, hvor virksomhedens formue er baseret på at have gode, handlingsmæssige data.

”Gør det til en teamsport for at hjælpe med at kurere og indsamle data og rense dem. At gøre det kan også øge dataintegriteten, ”sagde Talends Christopher.

Big data-løsning nr. 3: Fokus

Folk synes at have tankegangen om, at et big data-projekt skal være massivt og ambitiøst. Som alt hvad du lærer for første gang, er den bedste måde at få succes på at starte i det små og derefter gradvist udvide i ambition og omfang.

”De skal meget snævert definere, hvad de laver,” sagde Heudecker. "De skal vælge et problemdomæne og eje det, som f.eks. Afsløring af svig, mikrosegmentering af kunder eller at finde ud af, hvilket nyt produkt de skal introducere på en tusindårsmarked."

”I slutningen af ​​dagen er du nødt til at bede om den indsigt, du ønsker, eller om forretningsprocessen skal digitaliseres,” sagde Christopher. ”Du kaster ikke bare teknologi på et forretningsproblem; du er nødt til at definere det foran. Datasøen er en nødvendighed, men du ønsker ikke at indsamle data, hvis de ikke skal bruges af nogen i erhvervslivet. "

I mange tilfælde betyder det også ikke at overbelaste din egen virksomhed. ”I alle virksomheder, jeg nogensinde har studeret, er der kun et par hundrede nøglekoncepter og relationer, som hele virksomheden kører på. Når du først har forstået det, indser du, at alle disse millioner af forskelle kun er små variationer af de få hundrede vigtige ting, ”sagde PwCs Morrison. ”Faktisk opdager du, at mange af de små variationer slet ikke er variationer. De er virkelig de samme ting med forskellige navne, forskellige strukturer eller forskellige etiketter, ”tilføjede han.

Big data-løsning nr. 4: Jettison arven

Selvom du måske vil bruge disse terabyte data, der er indsamlet og gemt i dit datalager, er det faktum, at du måske får bedre betjening ved bare at fokusere på nyindsamlede data i lagersystemer designet til store data og designet til at være uiloderet.

"Jeg vil bestemt anbefale ikke nødvendigvis at blive set på en eksisterende teknologiinfrastruktur, bare fordi din virksomhed er en licens til den," sagde konsulent Greenbaum. ”Ofte kan nye komplekse problemer kræve nye komplekse løsninger. At falde tilbage på gamle værktøjer rundt om i et årti er ikke den rigtige vej at gå. Mange virksomheder bruger gamle værktøjer, og det dræber projektet. ”

Morrison o = bemærkede, "Virksomheder skal stoppe med at få deres fødder viklet ind i deres eget undertøj og bare jette den arvede arkitektur, der skaber flere siloer." Han sagde også, at de er nødt til at stoppe med at forvente, at leverandører løser deres komplekse systemproblemer for dem. ”I årtier synes mange at antage, at de kan købe sig ud af et big data-problem. Ethvert big data-problem er et systemisk problem. Når det kommer til komplekse systemændringer, skal du bygge dig ud, ”sagde han.