1. Programmēšanas valodas izvēle
- Valoda ir atkarīga no klastera veida. Klasteris var sastāvēt no diviem režīmiem, t.i., standarta un augstas vienlaicības. Augstas vienlaicības klasteris atbalsta R, Python un SQL, savukārt standarta klasteris atbalsta Scala, Java, SQL, Python un R.
- Spark ir izstrādāts Scala un ir Databricks pamatā esošais apstrādes dzinējs. Scala darbojas labāk nekā Python un SQL. Tādējādi standarta klasterim Scala ir ieteicamā valoda Spark darbu izstrādei.
2. ADF datu bloku piezīmju grāmatiņu izsaukšanai
- **Piezīmjdatoru atkarības: **Piezīmjdatora atkarības ir salīdzinoši vieglāk noteikt ADF, nevis pašā Databricks. Kļūmes gadījumā ir ērta piezīmjdatora izsaukumu sērijas atkļūdošana ADF konveijerā.
- **Lēti: **Kad piezīmjdators tiek izsaukts, izmantojot ADF, dzirksteļdarba apstrādei tiek izmantots īslaicīgs uzdevumu kopas modelis, jo klastera dzīves cikls ir saistīts ar darba dzīves ciklu. Šīs īstermiņa kopas maksā lētāk nekā kopas, kas izveidotas, izmantojot Databricks UI.
3. Logrīku mainīgo izmantošana
Konfigurācijas informācija ir pieejama Databricks kodam, izmantojot logrīka mainīgos. Konfigurācijas dati tiek pārsūtīti no konveijera mainīgā uz logrīka mainīgajiem, kad piezīmjdators tiek izsaukts ADF konveijerā. Izstrādes posmā, lai modelētu piezīmjdatora darbību, ko darbina ADF, logrīku mainīgie tiek manuāli izveidoti, izmantojot šādu koda rindiņu.
Izpildot iepriekš minēto koda rindiņu, piezīmju grāmatiņas augšpusē tiks izveidots tekstlodziņš ar etiķeti. Šajā tekstlodziņā var ierakstīt nepieciešamo vērtību. Tādā veidā piezīmjdatoru var pārbaudīt pirms tā izpildes no ADF konveijera.
4. Key Vault piekļuves atslēgu glabāšanai
Izvairieties no sensitīvas informācijas cietā kodēšanas kodā. Saglabājiet visu sensitīvo informāciju, piemēram, krātuves konta atslēgas, datu bāzes lietotājvārdu, datu bāzes paroli utt., atslēgu glabātuvē. Piekļūstiet atslēgu glabātuvei pakalpojumā Databricks, izmantojot slepeno tvērumu
5. Piezīmju grāmatiņu organizēšana
Pieņemsim, ka vienā Databricks darbvietā strādā vairākas komandas. Tādā gadījumā katrai grupai ieteicams izveidot atsevišķas mapes. Katrai no šīm grupām atbilstošās piezīmju grāmatiņas tiek glabātas attiecīgajās mapēs.
Iepriekš redzamajā ekrānuzņēmumā Databricks darbvietā ir divas mapes — pārdošana un mārketings. Pārdošanas un mārketinga komandas izstrādātāji var izveidot piezīmju grāmatiņas savās attiecīgajās mapēs.
6. Iekļaujiet atbilstošu dokumentāciju
Katra augsta līmeņa programmēšanas valoda nodrošina funkciju komentāru pievienošanai koda skriptam. Papildus tam Databricks nodrošina funkciju labi formatētas dokumentācijas/teksta rakstīšanai piezīmju grāmatiņas šūnās. Lai pievienotu nepieciešamo dokumentāciju, šūnā izmantojiet %md.
7. Izmantojiet automātisko pabeigšanu, lai izvairītos no tipogrāfiskām kļūdām
Šī ir noderīga funkcija, izstrādājot programmas Databricks piezīmjdatoros. Varat izmantot cilnes pogu, lai sniegtu automātiskās pabeigšanas ieteikumus. Tas palīdz novērst drukas kļūdas.
8. Koda pārskatīšanai izmantojiet funkciju “Komentāri”.
Kodu pārskatīšana ir ērta, pateicoties Databricks opcijai Komentāri. Recenzents var viegli pievienot komentārus, iezīmējot ietekmēto kodu.
9. SQL šūnu formatēšanai izmantojiet opciju Formatēt SQL
Labi formatēts SQL vaicājums ir viegli lasāms un saprotams. Databricks piedāvā īpašu līdzekli SQL šūnu formatēšanai. Izmantojiet šo funkciju, cik vien iespējams. Opciju Formatēt SQL kodu var atrast sadaļā Rediģēt.
10. Vienmēr pārbaudiet opciju “Padomnieks”.
Pēc pirmās palaišanas opcija Advisor analizē visu izpildi un, ja nepieciešams, iesaka dažas optimizācijas. Ierosinājumu īstenošana varētu krasi palielināt darba efektivitāti.
11. Palaidiet piezīmju grāmatiņu no cita piezīmjdatora
Vienmēr ir laba prakse iekļaut visas atkārtoti izmantotās darbības, piemēram, lasīšanu/rakstīšanu Data Lake, SQL datu bāzē utt., vienā vispārējā piezīmju grāmatiņā. To pašu piezīmjdatoru var izmantot, lai iestatītu Spark konfigurācijas, pievienotu ADLS ceļu uz DBFS, iegūtu noslēpumus no slepenā tvēruma utt.
Lai izmantotu vispārīgajā piezīmjdatorā definētās darbības no citām piezīmjdatoriem, tā ir jāizsauc, izmantojot komandu palaist. Tālāk norādīto relatīvo ceļu var izmantot, ja abi piezīmjdatori, t.i., FGCurated un Test atrodas vienā direktorijā.
12. Dzirksteles sesijas izolācija
Drošības apsvērumu dēļ laba prakse ir izmantot izolētas Spark sesijas. Spark sesijas izolācija ir iespējota pēc noklusējuma. Ja ir prasība koplietot datus vairākās Spark sesijās, izmantojiet createOrReplaceGlobalTempView, nevis createOrReplaceTempView. Sesijas izolāciju var atspējot, iestatot spark.databricks.session.share kā **patiesa. **Iespējojot šo opciju, CreateOrReplaceTempView var koplietot datus vairākās Spark sesijās.
13. Git integrācija
Izstrādes posmā laba prakse ir saistīt piezīmjdatoru ar GIT līdzekļu atzaru. Gadījumā, ja piezīmju grāmatiņa tiek nejauši izdzēsta, izmaiņas saglabājas līdzekļa zarā.
14. Faila satura tieša skatīšana
Ja vēlaties pārbaudīt dažus ierakstus vienotā failā, piemēram, CSV vai JSON, ir ērta komanda Databricks. Šī pieeja ļauj izvairīties no datu ielādes Dataframe un pēc tam parādīt datus.
dzone.com
Azure Databricks: 14 izstrādātāja paraugprakse
Šeit ir 14 izstrādātāju paraugprakse>