Programmering

Dagens datavidenskabelige roller eksisterer ikke om 10 år

I det kommende årti vil datavidenskabsrollen, som vi kender den, se meget anderledes ud end i dag. Men rolig, ingen forudsiger mistede job, bare ændret job.

Dataforskere vil have det fint - ifølge Bureau of Labor Statistics forventes rollen stadig at vokse med et højere klip end gennemsnittet frem til 2029. Men fremskridt inden for teknologi vil være drivkraften for et enormt skift i en dataforskers ansvar og inden for hvordan virksomheder nærmer sig analyser som en helhed. Og AutoML-værktøjer, der hjælper med at automatisere maskinlæringsrørledningen fra rådata til en brugbar model, vil føre denne revolution.

Om 10 år vil dataforskere have helt forskellige sæt færdigheder og værktøjer, men deres funktion vil forblive den samme: at tjene som selvsikker og kompetent teknologiguide, der kan give mening om komplekse data til løsning af forretningsproblemer.

AutoML demokratiserer datalogi

Indtil for nylig var maskinlæringsalgoritmer og -processer næsten udelukkende domænet for mere traditionelle datavidenskabsroller - dem med formel uddannelse og avancerede grader eller arbejde for store teknologifirmaer. Dataforskere har spillet en uvurderlig rolle i alle dele af maskinindlæringens udviklingsspektrum. Men med tiden bliver deres rolle mere samarbejdsvillig og strategisk. Med værktøjer som AutoML til at automatisere nogle af deres mere akademiske færdigheder kan dataforskere fokusere på at vejlede organisationer i retning af løsninger på forretningsproblemer via data.

På mange måder skyldes dette, at AutoML demokratiserer indsatsen for at omsætte maskinlæring i praksis. Leverandører fra startups til hyperscalers i skyen har lanceret løsninger, der er lette at udvikle til at bruge og eksperimentere uden en stor uddannelsesmæssig eller oplevelsesmæssig adgangsbarriere. Tilsvarende er nogle AutoML-applikationer intuitive og enkle nok til, at ikke-tekniske medarbejdere kan prøve deres hænder på at skabe løsninger på problemer i deres egne afdelinger - skabe en "borger-data-videnskabsmand" af slags i organisationer.

For at undersøge mulighederne, som disse typer værktøjer låser op for både udviklere og dataforskere, skal vi først forstå den aktuelle tilstand inden for datalogi, da det vedrører udvikling af maskinindlæring. Det er nemmest at forstå, når det placeres på en modenhedsskala.

Mindre organisationer og virksomheder med mere traditionelle roller med ansvar for digital transformation (dvs. ikke klassisk uddannede dataforskere) falder typisk i denne ende af denne skala. Lige nu er de de største kunder til out-of-the-box maskinindlæringsapplikationer, som er mere målrettet mod et publikum, der ikke er bekendt med maskinindlæringens komplikationer.

  • Fordele: Disse nøglefærdige applikationer har tendens til at være nemme at implementere og relativt billige og lette at implementere. For mindre virksomheder med en meget specifik proces til automatisering eller forbedring er der sandsynligvis flere levedygtige muligheder på markedet. Den lave adgangsbarriere gør disse applikationer perfekte til dataforskere, der for første gang vender ind i maskinindlæring. Fordi nogle af applikationerne er så intuitive, tillader de endda ikke-tekniske medarbejdere en chance for at eksperimentere med automatisering og avancerede datafunktioner - potentielt introducere en værdifuld sandkasse i en organisation.
  • Ulemper: Denne klasse af maskinlæringsapplikationer er notorisk ufleksibel. Selvom de kan være lette at implementere, tilpasses de ikke let. Som sådan kan visse nøjagtighedsniveauer være umulige for visse applikationer. Derudover kan disse applikationer være stærkt begrænset af deres afhængighed af foruddefinerede modeller og data. 

Eksempler på disse applikationer inkluderer Amazon Comprehend, Amazon Lex og Amazon Forecast fra Amazon Web Services og Azure Speech Services og Azure Language Understanding (LUIS) fra Microsoft Azure. Disse værktøjer er ofte tilstrækkelige til, at spirende dataforskere kan tage de første skridt i maskinindlæring og indvarsle deres organisationer længere nede i modenhedsspektret.

Tilpasningsdygtige løsninger med AutoML

Organisationer med store, men relativt almindelige datasæt - tænk kundetransaktionsdata eller marketing-e-mail-metrics - har brug for mere fleksibilitet, når de bruger maskinlæring til at løse problemer. Indtast AutoML. AutoML tager trinene i en manuel arbejdsindlæring til maskinindlæring (dataopdagelse, sonderende dataanalyse, tuning af hyperparameter osv.) Og kondenserer dem til en konfigurerbar stak.

  • Fordele: AutoML-applikationer gør det muligt at køre flere eksperimenter på data i et større rum. Men den virkelige supermagt ved AutoML er tilgængeligheden - tilpassede konfigurationer kan bygges, og input kan forbedres relativt let. Desuden er AutoML ikke lavet udelukkende med dataforskere som publikum. Udviklere kan også let pille i sandkassen for at bringe maskinlæringselementer ind i deres egne produkter eller projekter.
  • Ulemper: Mens det kommer tæt, betyder AutoMLs begrænsninger, at nøjagtigheden i output er vanskelig at perfektionere. På grund af dette, holder graden, kortbærende dataforskere ofte ned på applikationer bygget ved hjælp af AutoML - selvom resultatet er nøjagtigt nok til at løse det aktuelle problem.

Eksempler på disse applikationer inkluderer Amazon SageMaker AutoPilot eller Google Cloud AutoML. Dataforskere om et årti fra nu vil utvivlsomt skulle være fortrolige med værktøjer som disse. Ligesom en udvikler, der er dygtig i flere programmeringssprog, skal dataforskere have færdigheder i flere AutoML-miljøer for at blive betragtet som toptalenter.

“Håndrullede” og hjemmelavede maskinlæringsløsninger 

De største virksomheder i virksomheder og Fortune 500-virksomheder er, hvor de fleste af de avancerede og proprietære maskinlæringsapplikationer i øjeblikket udvikles. Dataforskere fra disse organisationer er en del af store teams, der perfektionerer maskinlæringsalgoritmer ved hjælp af store historiske data og bygger disse applikationer fra bunden. Tilpassede applikationer som disse er kun mulige med betydelige ressourcer og talent, hvorfor udbetalingen og risiciene er så store.

  • Fordele: Som enhver applikation, der er bygget fra bunden, er brugerdefineret maskinindlæring ”avanceret” og er baseret på en dyb forståelse af det aktuelle problem. Det er også mere nøjagtigt - om end kun med små margener - end AutoML og out-of-the-box maskinlæringsløsninger.
  • Ulemper: At få en brugerdefineret maskinlæringsapplikation til at nå bestemte nøjagtighedstærskler kan være ekstremt vanskelig og kræver ofte tunge løft af hold af dataforskere. Derudover er tilpassede maskinindlæringsmuligheder de mest tidskrævende og dyreste at udvikle.

Et eksempel på en håndrullet maskinlæringsløsning er at starte med en tom Jupyter-notesbog, manuelt importere data og derefter udføre hvert trin fra sonderende dataanalyse gennem modelindstilling manuelt. Dette opnås ofte ved at skrive brugerdefineret kode ved hjælp af open source-maskinindlæringsrammer som Scikit-learn, TensorFlow, PyTorch og mange andre. Denne tilgang kræver en høj grad af både erfaring og intuition, men kan give resultater, der ofte overgår både nøglefærdige maskinlæringstjenester og AutoML.

Værktøjer som AutoML skifter datavidenskabelige roller og ansvar over de næste 10 år. AutoML tager byrden ved at udvikle maskinlæring fra bunden af ​​dataforskere og lægger i stedet mulighederne for maskinlæringsteknologi direkte i hænderne på andre problemløsere. Med tiden frigjort til at fokusere på det, de ved - dataene og inputene selv - vil dataforskere om et årti fra nu tjene som endnu mere værdifulde guider for deres organisationer.

Eric Miller fungerer som seniordirektør for teknisk strategi i Rackspace, hvor han giver strategisk rådgivningsledelse med en dokumenteret track record for praksisopbygning i Amazon Partner Network (APN) økosystem.Eric er en dygtig teknologileder med 20 års dokumenteret succes inden for it-virksomhed og har ført adskillige AWS- og løsningsarkitekturinitiativer, herunder AWS Well Architected Framework (WAF) Assessment Partner Program, Amazon EC2 for Windows Server AWS Service Delivery Program og en bred vifte af AWS-omskrivninger til multimilliardorganisationer.

New Tech Forum giver et sted at udforske og diskutere nye virksomhedsteknologier i hidtil uset dybde og bredde. Valget er subjektivt baseret på vores valg af de teknologier, som vi mener er vigtige og af største interesse for læserne. accepterer ikke markedsføringssikkerhed til offentliggørelse og forbeholder sig retten til at redigere alt bidraget indhold. Send alle forespørgsler til [email protected]