Azure Databricks: 14 izstrādātāja paraugprakse

Emuārs

1. Programmēšanas valodas izvēle

  • Valoda ir atkarīga no klastera veida. Klasteris var sastāvēt no diviem režīmiem, t.i., standarta un augstas vienlaicības. Augstas vienlaicības klasteris atbalsta R, Python un SQL, savukārt standarta klasteris atbalsta Scala, Java, SQL, Python un R.
  • Spark ir izstrādāts Scala un ir Databricks pamatā esošais apstrādes dzinējs. Scala darbojas labāk nekā Python un SQL. Tādējādi standarta klasterim Scala ir ieteicamā valoda Spark darbu izstrādei.

2. ADF datu bloku piezīmju grāmatiņu izsaukšanai

    Novērst cieto kodēšanu: noteiktos scenārijos Databricks nepieciešama noteikta konfigurācijas informācija, kas saistīta ar citiem Azure pakalpojumiem, piemēram, krātuves konta nosaukums, datu bāzes servera nosaukums utt. ADF konveijeram tiek izmantoti konveijera mainīgie konfigurācijas informācijas glabāšanai. Databricks piezīmju grāmatiņas izsaukšanas laikā ADF konveijerā konfigurācijas informācija tiek pārsūtīta no konveijera mainīgajiem uz Databricks logrīka mainīgajiem, tādējādi novēršot cieto kodēšanu Databricks piezīmjdatoros.
  • **Piezīmjdatoru atkarības: **Piezīmjdatora atkarības ir salīdzinoši vieglāk noteikt ADF, nevis pašā Databricks. Kļūmes gadījumā ir ērta piezīmjdatora izsaukumu sērijas atkļūdošana ADF konveijerā.
  • **Lēti: **Kad piezīmjdators tiek izsaukts, izmantojot ADF, dzirksteļdarba apstrādei tiek izmantots īslaicīgs uzdevumu kopas modelis, jo klastera dzīves cikls ir saistīts ar darba dzīves ciklu. Šīs īstermiņa kopas maksā lētāk nekā kopas, kas izveidotas, izmantojot Databricks UI.

3. Logrīku mainīgo izmantošana

Konfigurācijas informācija ir pieejama Databricks kodam, izmantojot logrīka mainīgos. Konfigurācijas dati tiek pārsūtīti no konveijera mainīgā uz logrīka mainīgajiem, kad piezīmjdators tiek izsaukts ADF konveijerā. Izstrādes posmā, lai modelētu piezīmjdatora darbību, ko darbina ADF, logrīku mainīgie tiek manuāli izveidoti, izmantojot šādu koda rindiņu.



Izpildot iepriekš minēto koda rindiņu, piezīmju grāmatiņas augšpusē tiks izveidots tekstlodziņš ar etiķeti. Šajā tekstlodziņā var ierakstīt nepieciešamo vērtību. Tādā veidā piezīmjdatoru var pārbaudīt pirms tā izpildes no ADF konveijera.






4. Key Vault piekļuves atslēgu glabāšanai

Izvairieties no sensitīvas informācijas cietā kodēšanas kodā. Saglabājiet visu sensitīvo informāciju, piemēram, krātuves konta atslēgas, datu bāzes lietotājvārdu, datu bāzes paroli utt., atslēgu glabātuvē. Piekļūstiet atslēgu glabātuvei pakalpojumā Databricks, izmantojot slepeno tvērumu



5. Piezīmju grāmatiņu organizēšana

Pieņemsim, ka vienā Databricks darbvietā strādā vairākas komandas. Tādā gadījumā katrai grupai ieteicams izveidot atsevišķas mapes. Katrai no šīm grupām atbilstošās piezīmju grāmatiņas tiek glabātas attiecīgajās mapēs.



Iepriekš redzamajā ekrānuzņēmumā Databricks darbvietā ir divas mapes — pārdošana un mārketings. Pārdošanas un mārketinga komandas izstrādātāji var izveidot piezīmju grāmatiņas savās attiecīgajās mapēs.






6. Iekļaujiet atbilstošu dokumentāciju

Katra augsta līmeņa programmēšanas valoda nodrošina funkciju komentāru pievienošanai koda skriptam. Papildus tam Databricks nodrošina funkciju labi formatētas dokumentācijas/teksta rakstīšanai piezīmju grāmatiņas šūnās. Lai pievienotu nepieciešamo dokumentāciju, šūnā izmantojiet %md.

7. Izmantojiet automātisko pabeigšanu, lai izvairītos no tipogrāfiskām kļūdām

Šī ir noderīga funkcija, izstrādājot programmas Databricks piezīmjdatoros. Varat izmantot cilnes pogu, lai sniegtu automātiskās pabeigšanas ieteikumus. Tas palīdz novērst drukas kļūdas.

8. Koda pārskatīšanai izmantojiet funkciju “Komentāri”.

Kodu pārskatīšana ir ērta, pateicoties Databricks opcijai Komentāri. Recenzents var viegli pievienot komentārus, iezīmējot ietekmēto kodu.

9. SQL šūnu formatēšanai izmantojiet opciju Formatēt SQL

Labi formatēts SQL vaicājums ir viegli lasāms un saprotams. Databricks piedāvā īpašu līdzekli SQL šūnu formatēšanai. Izmantojiet šo funkciju, cik vien iespējams. Opciju Formatēt SQL kodu var atrast sadaļā Rediģēt.

10. Vienmēr pārbaudiet opciju “Padomnieks”.

Pēc pirmās palaišanas opcija Advisor analizē visu izpildi un, ja nepieciešams, iesaka dažas optimizācijas. Ierosinājumu īstenošana varētu krasi palielināt darba efektivitāti.

11. Palaidiet piezīmju grāmatiņu no cita piezīmjdatora

Vienmēr ir laba prakse iekļaut visas atkārtoti izmantotās darbības, piemēram, lasīšanu/rakstīšanu Data Lake, SQL datu bāzē utt., vienā vispārējā piezīmju grāmatiņā. To pašu piezīmjdatoru var izmantot, lai iestatītu Spark konfigurācijas, pievienotu ADLS ceļu uz DBFS, iegūtu noslēpumus no slepenā tvēruma utt.

Lai izmantotu vispārīgajā piezīmjdatorā definētās darbības no citām piezīmjdatoriem, tā ir jāizsauc, izmantojot komandu palaist. Tālāk norādīto relatīvo ceļu var izmantot, ja abi piezīmjdatori, t.i., FGCurated un Test atrodas vienā direktorijā.

12. Dzirksteles sesijas izolācija

Drošības apsvērumu dēļ laba prakse ir izmantot izolētas Spark sesijas. Spark sesijas izolācija ir iespējota pēc noklusējuma. Ja ir prasība koplietot datus vairākās Spark sesijās, izmantojiet createOrReplaceGlobalTempView, nevis createOrReplaceTempView. Sesijas izolāciju var atspējot, iestatot spark.databricks.session.share kā **patiesa. **Iespējojot šo opciju, CreateOrReplaceTempView var koplietot datus vairākās Spark sesijās.

13. Git integrācija

Izstrādes posmā laba prakse ir saistīt piezīmjdatoru ar GIT līdzekļu atzaru. Gadījumā, ja piezīmju grāmatiņa tiek nejauši izdzēsta, izmaiņas saglabājas līdzekļa zarā.

14. Faila satura tieša skatīšana

Ja vēlaties pārbaudīt dažus ierakstus vienotā failā, piemēram, CSV vai JSON, ir ērta komanda Databricks. Šī pieeja ļauj izvairīties no datu ielādes Dataframe un pēc tam parādīt datus.

dzone.com

Azure Databricks: 14 izstrādātāja paraugprakse

Šeit ir 14 izstrādātāju paraugprakse>