Programmering

Apache Eagle holder øje med brugen af ​​store data

Apache Eagle, oprindeligt udviklet på eBay, derefter doneret til Apache Software Foundation, udfylder en big datasikkerhedsniche, der forbliver tyndt befolket, hvis ikke bare: Den snuser mulige sikkerheds- og ydeevneproblemer med big data-rammer.

For at gøre det bruger Eagle andre Apache open source-komponenter, såsom Kafka, Spark og Storm, til at generere og analysere maskinindlæringsmodeller ud fra adfærdsdata fra big data-klynger.

Ser indefra

Data til Eagle kan komme fra aktivitetslogfiler til forskellige datakilder (HDFS, Hive, MapR FS, Cassandra) eller fra præstationsmålinger høstet direkte fra rammer som Spark. Dataene kan derefter røres af Kafka-streaming-rammen til et realtidsregistreringssystem, der er bygget med Apache Storm eller i et model-træningssystem bygget på Apache Spark. Førstnævnte er til generering af alarmer og rapporter baseret på eksisterende politikker; sidstnævnte er til oprettelse af maskinlæringsmodeller til at drive nye politikker.

Denne vægt på realtidsadfærd topper listen over "nøglekvaliteter" i dokumentationen til Eagle. Det efterfølges af "skalerbarhed", "metadata-styret" (hvilket betyder, at ændringer i politikker implementeres automatisk, når deres metadata ændres) og "udvidelse". Dette sidste betyder, at datakilderne, alarmeringssystemerne og politikmotorer, der bruges af Eagle, leveres af plugins og ikke er begrænset til hvad der er i kassen.

Fordi Eagle blev sammensat fra eksisterende dele af Hadoop-verdenen, har det to teoretiske fordele. Den ene, der er mindre opfindelse af hjulet. To, dem, der allerede har erfaring med de pågældende brikker, vil have et ben op.

Hvad laver mit folk?

Bortset fra de ovennævnte brugstilfælde som analyse af jobpræstationer og overvågning for unormal adfærd, kan Eagle også analysere brugeradfærd. Dette handler ikke om, for eksempel, at analysere data fra en webapplikation for at lære om de offentlige brugere af appen, men snarere brugerne af selve big data-rammen - folk, der bygger og administrerer Hadoop eller Spark-backend. Et eksempel på, hvordan en sådan analyse køres, er inkluderet, og den kan implementeres som den er eller ændres.

Eagle tillader også klassificering af applikationsadgang efter følsomhedsniveauer. Kun HDFS-, Hive- og HBase-applikationer kan bruge denne funktion lige nu, men dens interaktion med dem giver en model for, hvordan andre datakilder også kunne klassificeres.

Lad os holde dette under kontrol

Fordi store datarammer er hurtige kreationer, har det været svært at opbygge pålidelig sikkerhed omkring dem. Eagles forudsætning er, at det kan levere politikbaseret analyse og alarmering som et muligt supplement til andre projekter som Apache Ranger. Ranger leverer godkendelse og adgangskontrol på tværs af Hadoop og dets relaterede teknologier; Eagle giver dig en ide om, hvad folk laver, når de får lov til at komme ind.

Det største spørgsmål, der svæver over Eagles fremtid - ja, selv så tidligt - er i hvilken grad Hadoop-leverandører elegant vil rulle det ind i deres eksisterende distributioner eller bruge deres egne sikkerhedstilbud. Datasikkerhed og styring har længe været en af ​​de manglende brikker, som kommercielle tilbud kunne konkurrere om.