Azure Databricks

Analyseredskab til samarbejde

Azure Databricks kombinerer det bedste fra Apache Spark og Azure Cloud i en ny service, hvor formålet er at behandle store mængder data i skyen på en hurtigt, let og tilgængelig måde, der fører til en mere produktiv, sikker og skalerbar analyseproces.

Databricks opstod grundet efterspørgsel på en webbaseret platform, der byggede ovenpå Apache Spark. Udover at bygge ovenpå Apache Spark, er Azure Databricks forbundet med de værktøjer og services, du allerede har tillid til såsom Power BI og Azure Storage.

background-half-helene-1

Sådan anvender du Azure Databricks


Differentier dine Compute clusters

I Azure Databricks kan du skabe forskellige Compute clusters, som kan konfiguereres forskelligt hvad angår størrelse (cpu, ram og harddisk), tilgængelige biblioteker med mere. Alt sammen noget, der kan konfigueres af udvikleren.

Indenfor Databricks findes der to slags clusters: interaktive og job clusters. Interaktive clusters anvendes i samarbejde med Notebooks til at analysere data, hvorimod job clusters anvendes til at køre automatiserede Workflows. Via Databricks kan du hurtigt og nemt oprette samt administrere dine clusters.

Anvend Interaktive Notebooks
Notebooks er den primære metode for arbejdet med data i Databricks. Notebook-oplevelsen gør det nemt at beskrive de enkelte trin i et langt og komplekst script eller blot udføre enkle transformationer og visualiseringer af data i separate celler.

Fordi Notebooken er delt op i celler, kan hver celle i den samme notebook defineres til at bruge forskellige sprog (Python, SQL, Scala eller R), og man kan derved kombinere det bedste fra de forskellige sprog i den samme analyse.

Koden i Notebooken bliver eksekveret på et af de prædefinerede Clusters og kan bruge den mængde ressourcer, der er tilgængeligt på det valgte Cluster. Det er en nem proces at skifte mellem Clusters, for at vurdere hvor stort et Cluster den enkelte Notebook skal bruge for at gennemføre sine operationer indenfor en tilladelig tid. Hvis Notebooken skal køres på et prædefineret skema, kan dette gøres igennem Workflows. 

Databricks og 
data warehouse


Azure Databricks kan også bruges til mere traditionelle discipliner som eksempelvis data warehouse.

På grund af skalerbarheden i platformen kan den endda skræddersys til at matche dine data-behov. Du kan dermed anvende det som et moderne data warehouse, hvorfra du kan skabe indsigt for dine brugere i henholdsvis dashboards, rapporter eller avancerede analyser.

Databricks og 
Lakehouse


Databricks Lakehouse er ofte den måde hvorpå, der bliver implementeret data warehouse i Databricks. Med et Lakehouse går du fra at have dit data liggende i en SQL-Database til at benytte filbaserede tabelformater i en data lake, for eksempel Delta Lake, som Databricks har udviklet.  

Ved brug af et tabelformat som Delta Lake opnår man bl.a. samme ACID-compliance, som man traditionelt set har gjort ved SQL-baserede databaser - blot i et åbent format som kan tilgås med mange forskellige processeringsmotorer uden at flytte data rundt. Derudover udnytter man også en anden type komprimering af data, columnar lagring og komprimering, der er mere effektiv måder at gemme og hente data på, når der skal laves beregninger på store mængder data.

Den foretrukne platform 
til udvikling af AI


Når vi udvikler AI- og ML-projekter, er Azure Databricks det foretrukne værktøj. 

Med Apache Spark som den underliggende processeringsteknologi stiller Azure Databricks en skalerbar platform til rådighed for Data Scientists med et intuitivt interface, der gør det muligt at optimere og tilpasse løsningen.

ML-udvikling har ofte behov for specielle biblioteker i f.eks. Python. De forskellige Clusters i Databricks kan konfigureres sådan, at bibliotekerne er tilgængelige på Clustered, når det bliver tændt. Det gør, at udvikleren kun skal tænke på at definere det nødvendige bibliotek én gang, og så er det tilgængeligt af alle, der har adgang til det Cluster. 

Databricks er udvikler af MLFlow, et end-to-end værktøj til håndtering af ML-modeller. Med Databricks og MLFlow kan modeller trackes, versioneres og udstilles som Web Services, som kan tilgås af andre applikationer.

5 fordele ved
Azure Databricks 


H
øj sikkerhed igennem en platform der er integreret med native Azure servies.

En skalerbar løsning med mulighed for forskellige typer af Compute-clusters og forskellige workloads fra Data Engineering til Data Science.

Øget produktivitet og et interaktivt Workspace igennem en Notebook-oplevelse, hvor flere kan samarbejde om den samme Notebook. 

Strømlinede workflows, b.la. igennem. mulighed for integrering med CI/CD services

Udarbejdelse og udstilling af analyser nemt og hurtigt med dit fortrukne sprog, Python, SQL, Scala eller R.

background-half-rob-1

Produktiv, pålidelig, skalerbar - vælg Databricks

I Azure Databricks er dit data sikkert lagret i Azure Storage, og platformen tilbyder muligheden for integration med Azure Active Directory, der giver en skalerbar løsning til styring af rettigheder til bl.a. Notebooks, Clusters, Workflows og data. 

Azure Databricks kan skaleres op, ned, ind og ud alt efter behov, hvilket sikrer reducering af både omkostninger og kompleksitet. Dine projekter kan også udbygges med andre use cases som f.eks. til machine learning, hvorfor du hurtigere kan bygge og skabe projekter baseret på det samme data, i den samme platform.

Derudover er det nemt at udstille sine analyser på forskellige måder. Enten kan du dele Notebooks med interaktive analyser, eller også kan du kan forbinde Power BI direkte til Databricks.

Er du stadig i tvivl om, hvorfor du skal vælge Azure Databricks? Det skal du fordi, det gør dit analysearbejde mere produktiv, pålidelig og skalerbart. På få minutter kan du starte et nyt projekt i et interaktivt arbejdsområde, hvor du kan inddrage flere Azure tjenester.

Skal vi mødes 
hos dig eller hos os?

 

Hvis du tænker, at tiden er inde til et møde eller et uforpligtende kald, er du mere end velkommen til at kontakte os. Du udfylder bare formularen, så kontakter vi dig hurtigst muligt for at finde et godt tidspunkt.