Verkkosovellukset

45 parasta Apache Spark -haastattelukysymystä

2. tammikuuta 2022

Ymmärrämme, että haastattelu voi joskus saada sinut hermostumaan, varsinkin kun sinun on annettava big data -työhaastattelu. Jokainen ehdokas kokee tarpeelliseksi valmistautua ennen kuin lähtee big data -työhön tai kipinäkehittäjän työhaastatteluun.

On vaikea ennustaa, millaisia ​​kysymyksiä sinulle haastattelussa kysytään. Siksi auttamaan sinua olemme laatineet luettelon suosituimmista Apache Spark -haastattelukysymyksistä ja -vastauksista, jotka voit valmistaa ennen kuin lähdet spark-kehittäjä- tai suuren datankäsittelyn työhaastatteluun. Katso tämä artikla yleisiin haastattelukysymyksiin.

Sisällysluettelo

Mikä on Apache Spark?

Ennen kuin jatkamme, meidän on ensin ymmärrettävä, mitä apache-kipinä on. Apachen kipinä on joustava tiedonkäsittelykehys, joka on melko helppokäyttöinen ja jonka avulla big datan ammattilaisten käyttäjät voivat suorittaa suoratoiston tehokkaasti. Apache spark on nopea ja yleisempi tietojenkäsittelyalustamoottori. Tämä alusta on kehitetty nopeaa laskentaa varten ja se kehitettiin UC Berkeleyssä vuonna 2009. Apache-sparkin avulla voit jakaa tiedostojärjestelmän tietoja klusterin poikki ja käsitellä niitä rinnakkain. Lisäksi voit helposti kirjoittaa sovelluksen Java-, Python- tai Scala-kielellä. Tämä alusta kehitettiin voittamaan Map-Reduce-klusterilaskentaparadigman rajoitukset, koska kipinä pystyy pitämään tiedot muistissa. MapReduce kuitenkin sekoittaa tiedot muistilevyyn ja sieltä pois. Lisäksi spark tukee SQL-kyselyitä, suoratoistodataa ja kaaviotietojen käsittelyä. Ja mikä tärkeintä, apache-spark ei toimi Hadoopissa, koska se toimii yksinään käyttämällä tallennustilaa, kuten Cassandra, S3:een tallennettua dataa, josta spark-alusta voi kirjoittaa ja lukea. Apache Spark toimii 100 kertaa nopeammin kuin Hadoop MapReduce.

Suosituimmat Apache Spark -haastattelukysymykset ja vastaukset

Listaamme suosituimmat Apache Spark -haastattelukysymykset ja vastaukset, jotka voit valmistaa ennen kuin menet big data -työhaastatteluusi.

yksi. Mitkä ovat apache-sparkin pääominaisuudet?

Apache sparkin tärkeimmät ominaisuudet ovat seuraavat:

  • Laiska arviointi - Apache spark käyttää laiskan arvioinnin käsitettä arvioinnin viivästymiseen, kunnes siitä tulee pakollinen.
  • Ohjelmointikielten tuki - Voit kirjoittaa kipinäkoodin neljällä ohjelmointikielellä, kuten Java, Python, R ja Scala. Lisäksi alusta tarjoaa myös korkean tason API:ita näillä ohjelmointikielillä. Spark tarjoaa kuoret Pythonissa ja Scalassa. Python- ja scala-kuoret pääset helposti käsiksi ./bin/pyspark-hakemiston ja .bin/spark-shell-hakemiston kautta.
  • Koneoppiminen - Apache sparkin koneoppimisominaisuus on hyödyllinen ison datan käsittelyssä, koska se poistaa tarpeen käyttää erillisiä moottoreita koneoppimiseen ja käsittelyyn.
  • Useiden muotojen tuki – Spark tukee kaikkia useita tietolähteitäsi, kuten JSON, Hive ja Parquet. Lisäksi, jotta pääset käsiksi strukturoituun dataan kipinä-SQL:n kautta, saat kytkettävät mekanismit, joita tietolähteiden API tarjoaa.
  • Nopeus - Apache-kipinä toimii 100 kertaa nopeammin kuin Hadoop MapReduce. Apache spark pystyy saavuttamaan tämän nopeuden kontrolloidun annostelun avulla. Tämä tarkoittaa, että apache-spark hallitsee tietoja osioiden avulla, mikä edelleen auttaa rinnakkaisemaan hajautettua tiedonkäsittelyä mahdollisimman pienellä liikenneverkossa.
  • Hadoop-integraatio – Apache spark tarjoaa tehokkaan yhteyden Hadoopin kanssa. Lisäksi kipinän käyttö on parempi, kun kyse on Hadoop MapReducesta.
  • Reaaliaikainen käsittely – Apache-spark-muistin laskennan ansiosta laskenta ja käsittely tapahtuu reaaliajassa ja sillä on alhainen latenssi.
Katso myös Voivatko iPhonet saada viruksia: kuinka tarkistaa ja poistaa viruksia

kaksi. Mitkä ovat apache-sparkin edut Hadoop MapReduceen verrattuna?

Tämä on yksi apache spark -haastattelukysymyksistä, joita voidaan kysyä haastattelussa. Seuraavat ovat apache-sparkin edut Hadoop-karttojen vähentämiseen verrattuna.

  • Moniajo – Hadoop tukee vain eräkäsittelyä sisäänrakennettujen kirjastojen kautta. Toisaalta useiden tehtävien suorittamiseen apache-sparkissa on sisäänrakennettuja kirjastoja, joita voit käyttää eräkäsittelyyn, interaktiivisiin SQL-kyselyihin, koneoppimiseen ja suoratoistoon.
  • Parannettu nopeus – kun käytät apache-sparkia, olet varmasti huomannut, että sparkin muistin käsittelynopeus on 100 kertaa nopeampi kuin Hadoop map-reduce.
  • Ei levyriippuvuutta – Hadoop MapReduce on riippuvainen levyistä, ja apache spark käyttää sisäänrakennettua muistin tietojen tallennusta ja välimuistia.

3. Mikä on kipinämoottorin tehtävä?

Voidaan käyttää kipinämoottoria datasovelluksen jakamiseen, ajoittamiseen ja valvontaan koko klusterin välillä.

Neljä. Mitä tarkoitat osioilla?

Osio tarkoittaa pienempää ja loogista tiedon tai datan jakoa. Osio on samanlainen kuin jakaminen MapReducessa. Osiointi voidaan määritellä prosessiksi tietojen käsittelyn nopeuttamiseksi johtamalla tiedon loogisia yksiköitä. Kaikki kipinädata on osioitu RDD.

5. Mikä on kimmoisten hajautettujen tietojoukkojen käsite? Ilmoita myös menetelmä uuden RDD:n luomiseksi apache-sparkissa.

Vikasietoisuuskokoelma tai ryhmä toimintaelementtejä, jotka voivat toimia rinnakkain, tunnetaan nimellä RDD (resilient distributed datasets). Joten jos RDD:ssä on osioitua dataa, se on hajautettua ja muuttumatonta.

Voimme sanoa, että RDD:t ovat pieniä osia tiedosta, joka voidaan tallentaa muistiin, joka on jaettu useisiin solmuihin. Lisäksi kipinä käyttää laiskaa arviointia, jolloin RDD:t arvioidaan laiskasti, mikä auttaa kipinää saavuttamaan valtavan nopeuden. RDD-laitteita on kahdenlaisia.

  1. Hadoop-tietojoukot - Tämäntyyppiset RDD:t sisältävät toimintojen suorittamisen jokaiselle tiedostotietue tallennettu Hadoop-hajautettuun tiedostojärjestelmään (HDFS) tai muihin tallennusjärjestelmiin.
  2. Rinnakkaiskokoelmat - Nämä ovat RDD:itä, jotka toimivat rinnakkain toistensa kanssa.

Jos nyt puhumme uuden RDD:n luomisesta apache-sparkissa, on olemassa kaksi tapaa.

  • Voit luoda RDD:n rinnakkaisemalla kokoelman ajuriohjelmassa. Tämä menetelmä käyttää kipinäkontekstien rinnakkaismenetelmää.
  • Ulkoisen tallennustilan kautta lataamalla ulkoinen tietojoukko, joka sisältää HBase-, HDFS- ja jaetun tiedostojärjestelmän.

6. Mitä toimintoja RDD tukee?

RDD:n tukemat toiminnot ovat muunnoksia ja toimintoja.

7. Mitä ovat muunnokset kipinässä?

Spark-muunnokset tarkoittavat RDD:hen sovellettavia toimintoja, jotka johtavat uuteen RDD:hen. Toimintoja ei kuitenkaan suoriteta ennen kuin tapahtuu toiminto. Joitakin esimerkkejä muunnoksista ovat map()- ja filter()-funktiot, joissa map()-funktio toistetaan jokaisella RDD:n rivillä ja jakautuu muodostaen uuden RDD:n. Toisaalta filter()-funktio auttaa uuden RDD:n luomisessa valitsemalla elementtejä nykyisestä spark-RDD:stä.

8. Mitä tarkoitat toimilla kipinässä?

Spark-toiminnot tarkoittavat tietojen palauttamista RDD:ltä paikalliselle koneelle. Toiminnot kipinässä ovat periaatteessa RDD-toimintoja, jotka antavat ei-RDD-arvoja. Joitakin esimerkkejä toimista ovat vähennys ()-funktio, joka on toiminto, jonka voit toteuttaa toistuvasti, kunnes yksi arvo on jäljellä. Sitten on take()-toiminto, joka ottaa kaikki arvot RDD:ltä ja vie ne paikalliseen tiedostojärjestelmään.

9. Mitkä ovat kipinäytimen toiminnot?

Jotkut kipinäytimen toiminnoista ovat seuraavat:

  • Töiden seuranta
  • Tarjoaa vikasietoisuuden
  • Työaikataulu
  • Vuorovaikutus tallennusjärjestelmien kanssa
  • Muistin hallinta

10. Mitä tarkoitat RDD-perinteellä?

Spark RDD -linjaa käytetään kadonneiden tietojen rakentamiseen uudelleen, koska kipinä ei tue tietojen replikointia muistissa. Siksi kipinä RDD-linja auttaa rekonstruoimaan kadonneita dataosioita.

11. Mitä tarkoitat kipinäohjaimella?

Ohjelma, joka toimii koneen pääsolmussa ja ilmoittaa data-RDD:n toiminnot ja muunnokset, tunnetaan nimellä kipinäohjainohjelma. Toisin sanoen kipinäohjain auttaa luomaan kipinäkontekstin ja toimittamaan RDD-kaavioita masteriin, jossa erillinen klusterinhallinta on käynnissä.

12. Määrittele termi kipinävirtaus.

Yksi Apache spark -haastattelun kysytyimmistä kysymyksistä on termin kipinästriimaus määritteleminen. Spark-suoratoisto on Spark API:n laajennus, jonka avulla käyttäjät voivat suoratoistaa datastriimiä. Tietoja käsitellään eri tietolähteistä, kuten flume, Kinesis ja Kafka . Nämä käsitellyt tiedot tallennetaan sitten tiedostojärjestelmiin, reaaliaikaisiin kojetauluihin ja tietokantoihin. Tietojen käsittely on syöttötietojen osalta samanlaista kuin eräkäsittely.

13. Mitkä ovat MLlib:n toiminnot Apache Sparkissa?

MLlib on koneoppimiskirjasto, jonka tarjoaa kipinä. MLlib pyrkii tekemään koneoppimisesta helppoa ja skaalautuvaa, koska se sisältää yleisiä oppimisalgoritmeja, ja se käyttää tapauksia, kuten klusterinhallintaa klusterointiin, regressiosuodatukseen ja dimensioiden vähentämiseen.

14. Mitä tarkoitat Spark SQL:llä?

Spark SQL tunnetaan myös nimellä hai, ja se on uusi moduuli, joka auttaa strukturoidun tiedonkäsittelyn suorittamisessa. Spark voi suorittaa SQL-kyselyitä tiedoille tämän moduulin kautta. Lisäksi kipinä SQL tukee erilaista RDD:tä nimeltä SchemaRDD, joka koostuu riviobjekteista ja skeemaobjekteista, jotka määrittävät datatyypin kunkin rivin eri sarakkeissa.

15. Mitkä ovat Spark SQL:n toiminnot?

Spark SQL:n toiminnot ovat seuraavat:

  • Spark SQL voi ladata tiedot useista strukturoiduista lähteistä.
  • Spark SQL voi suorittaa datakyselyn käyttämällä SQL-lauseita, sekä spark-ohjelmissa että ulkoisten työkalujen kautta, jotka on yhdistetty spark SQL:ään standarditietokantaliittimien avulla, esimerkiksi käyttämällä monia big data -työkaluja, kuten taulua.
  • Se tarjoaa integraation tavallisen python/Java/Scala-koodin ja SQL:n välillä.

16. Mitä tarkoitat LANKALLA Apache Sparkissa?

Toinen yleinen apache spark -haastattelukysymys, joka voidaan kysyä haastattelussa, on LANGAN määrittely. Yksi kipinän tärkeimmistä ominaisuuksista on YARN, se on samanlainen kuin Hadoop, ja se tarjoaa resurssienhallintaalustan, joka tarjoaa skaalattavia toimintoja koko klusterissa. Lisäksi, jos käytät apache-kipinää YARNissa, tarvitset YARN-tuen varaan rakennetun kipinän binäärijakauman.

Katso myös Kuinka lisätä albumin kuvitus MP3-tiedostoon

17. Mitä tarkoitat Spark Executorilla?

Kun yhdistät kipinäkontekstin klusterin hallintaohjelmaan, se hankkii suorittimen klusterin solmuille. Spark-executorit auttavat laskelmien suorittamisessa ja tallentavat tiedot työntekijäsolmuihin. Viimeiset funktiot kipinäkontekstin mukaan siirretään suorittajille niiden suorittamista varten.

18. Mainitse erityyppiset klusterien johtajat kipinässä?

Spark-kehys tukee kolmen tyyppisiä klusterinhallintaohjelmia.

  1. Itsenäinen - se on perusklusterin hallintaohjelma, joka auttaa klusterin perustamisessa.
  2. Apache Mesos - tämä on Hadoop MapReducen ja kipinäsovelluksen yleisimmin käytetty klusterinhallinta.
  3. YARN - tämä on klusterin hallinta, joka vastaa resurssien hallinnasta Hadoopissa.

19. Mitä tarkoitat parkettiviilalla?

Pylväsmuotoista tiedostoa kutsutaan parkettitiedostoksi, jota useat muut tietojenkäsittelyjärjestelmät tukevat. Parkettitiedoston avulla Spark SQL suorittaa luku- ja kirjoitustoiminnot ja pitää parkettitiedostoa parhaana data-analytiikkamuotona tähän mennessä.

20. Onko tarpeen asentaa kipinä kaikkiin YARN-klusterin solmuihin, kun suoritat apache-sparkia YARNissa?

Ei ole välttämätöntä asentaa kipinää kaikkiin YARN-klusterin solmuihin, koska apache-spark juoksee YARN:n päällä.

21. Kerro kipinäekosysteemin komponentit?

Seuraavat ovat kipinäekosysteemin komponentteja.

  1. MLib- Se on koneoppimiskirjasto koneoppimista varten.
  2. GraphX- Se on tarkoitettu kuvaajien ja graafisen rinnakkaislaskennan toteuttamiseen.
  3. Spark core - se on perusmoottori, jota käytetään rinnakkaiseen ja hajautettuun tietojenkäsittelyyn suuressa mittakaavassa.
  4. Spark-suoratoisto – Spark-suoratoisto auttaa suoratoistotietojen reaaliaikaisessa käsittelyssä.
  5. Spark SQL - se auttaa integroimaan kipinän toiminnallisen ohjelmointirajapinnan rationaalisen käsittelyn kanssa.

22. Voitko käyttää apache-sparkia Cassandra-tietokantaan tallennettujen tietojen analysointiin ja käyttämiseen?

Sparkin käyttäminen Cassandra-tietokantaan tallennettujen tietojen analysointiin ja käyttämiseen on mahdollista kipinä Cassandra -liittimen avulla. Sinun on yhdistettävä Cassandra kipinäprojektiin. Siksi, kun yhdistät Cassandraan apache-sparkilla, voit tehdä kyselyitä paljon nopeammin vähentämällä verkon käyttöä tiedon lähettämiseen Cassandra-solmujen ja kipinäkäyttäjien välillä.

23. Määritä työntekijäsolmu?

Työntekijäsolmu on solmu, joka pystyy suorittamaan koodin klusterissa. Siksi ajuriohjelman on kuunneltava ja hyväksyttävä sama saapuvien yhteyksien suorittajilta. Lisäksi ajuriohjelman on oltava verkko-osoitettavissa työntekijäsolmuista.

24. Miten apache-spark yhdistetään apache-mesoihin?

Apache-kipinän yhdistäminen apache Mesosiin on seuraava:

  1. Ensimmäinen askel on mesos-konfiguroida kipinäohjainohjelma yhdistämään se apache-meso-ohjelmaan.
  2. Sinun on sijoitettava kipinäbinaaripaketti paikkaan, johon apache mesos pääsee käsiksi.
  3. Asenna nyt apache-spark samaan paikkaan kuin apache mesos.
  4. Osoittaaksesi paikkaan, johon apache spark on asennettu, sinun on määritettävä spark Mesos executor -kotiominaisuus.

25. Mitä tapoja minimoida tiedonsiirrot työskennellessäsi kipinän kanssa?

Nopeasti toimivien ja luotettavien kipinäohjelmien kirjoittamisessa on tärkeää minimoida tiedonsiirrot. Nämä ovat tapoja minimoida tiedonsiirrot, kun työskentelet apache sparkin kanssa.

  • Käytä akkuja - tiedonsiirron minimoimiseksi voit käyttää akkuja, koska ne tarjoavat tavan päivittää muuttujan arvot samalla, kun suoritat saman samanaikaisesti.
  • Välttäminen – Voit minimoida tiedonsiirrot välttämällä uudelleenosioimista, Bykey-toimintoja ja muita toimintoja, jotka ovat vastuussa sekoitusten käynnistämisestä.
  • Käytä lähetysmuuttujia - voit tehostaa liitosten tehokkuutta pienen ja suuren RDD:n välillä käyttämällä lähetysmuuttujia.

26. Selitä apache-sparkin lähetysmuuttujat ja mihin niitä käytetään?

Yksi Apache Spark -haastattelun kysytyimmistä kysymyksistä koskee lähetysmuuttujia. Apache sparkin yleislähetysmuuttujat ovat melko hyödyllisiä, koska sen sijaan, että toimittaisit muuttujan kopion tehtävien kanssa; lähetysmuuttuja auttaa säilyttämään muuttujan välimuistissa olevan version vain luku -tilassa.

Lisäksi jokainen solmu saa kopion suuresta syötetietojoukosta, koska se on yleislähetysmuuttujien tarjoama. Tietoliikennekustannusten vähentämiseksi apache-spark käyttää tehokkaita lähetysalgoritmeja lähetysmuuttujien jakamiseen.

Toinen yleislähetysmuuttujien käyttötarkoitus on vähentää tarvetta lähettää kunkin tehtävän muuttujan kopioita. Hakutehokkuuden parantamiseksi yleislähetysmuuttujat auttavat myös tallentamaan hakutaulukon muistiin verrattuna RDD lookup(:iin).

27. Tarjoaako Apache Spark tarkistuspisteitä?

Tarkastuspisteet tarjoaa apache-spark. Tarkistuspisteet mahdollistavat ohjelman toiminnan 24/7 ja tekevät niistä kestäviä virheitä vastaan. RDD:iden palauttamiseksi viasta käytetään linjakaavioita.

Lisäksi apache-spark on varustettu API:lla tarkistuspisteiden lisäämiseksi ja hallitsemiseksi. Käyttäjä voi siten päättää, mitä tietoja hän lisää tarkistuspisteeseen. Lisäksi tarkistuspisteitä suositaan enemmän kuin linjakaavioita, koska linjakaavioilla on laajemmat riippuvuudet.

28. Mainitse Apache Sparkin pysyvyys?

Apache-sparkissa on erilaisia ​​pysyvyystasoja RDD:iden tallentamiseksi levylle, muistiin tai sekä levyn että muistin yhdistelmään eri replikointitasoilla. Seuraavat ovat kipinän pysyvyystasot:

  • Muisti ja levy – Muisti ja levy tallentavat RDD:n JVM:ään desaroituina JAVA-objekteina. Jos RDD ei mahdu muistiin, osa RDD:stä tallennetaan levylle.
  • Vain levy - Kuten nimestä voi päätellä, vain levyn pysyvyystaso tallentaa RDD-osiot vain levylle.
  • Vain muistipalvelu - Vain muistipalvelu, joka on tallennettu RDD:lle yhdessä yhden tavun taulukon kanssa osiota kohden ja sarjoitettuina JAVA-objekteina.
  • Muisti- ja levypalvelin - Tämä pysyvyystaso on melko samanlainen kuin pelkkä muisti, mutta siinä on joitain eroja levylle tallennetut osiot kun ne eivät mahdu muistiin.
  • Vain muisti – Se tallentaa RDD:n JVM:ään deserialisoituina JAVA-objekteina. Jos RDD ei mahdu muistiin, joitain RDD:n osia ei tallenneta välimuistiin ja ne on laskettava uudelleen lennossa.
  • Pois keon - Tämä pysyvyystaso on samanlainen kuin muisti vain ser, mutta se tallentaa tiedot off-keon muistiin.
Katso myös 11 korjausta siihen, että Recaptcha ei toimi Chromessa, Firefoxissa tai missä tahansa selaimessa

29. Mitkä ovat apache-sparkin käytön rajoitukset?

Jotkut apache sparkin käytön rajoituksista ovat seuraavat:

  • Apache sparkissa ei ole sisäänrakennettua tiedostonhallintajärjestelmää. Siksi sinun on integroitava kipinä muihin alustoihin, kuten Hadoop tiedostonhallintajärjestelmää varten.
  • Reaaliaikaista datan suoratoistoprosessia ei tueta. Apache-sparkissa live-datavirta ositetaan eriksi ja muunnetaan jopa käsittelyn jälkeen eriksi. Siksi voimme sanoa, että kipinäsuoratoisto on mikroeräkäsittelyä eikä tue reaaliaikaista tietojenkäsittelyä.
  • Sparkissa käytettävissä olevien algoritmien määrä on pienempi.
  • Tietuepohjaiset ikkunaehdot eivät tue kipinäsuoratoistoa.
  • Kaikkea ei voi ajaa yhdessä solmussa, ja työ on jaettava useille klusteille.
  • Jos käytät kipinää kustannustehokkaaseen big datan käsittelyyn, sisäänrakennetusta muistista tulee haastavaa.

30. Ilmoita tapa käynnistää automaattiset siivoukset apache-kipinässä muulla tavalla kuin 'spark.cleaner.ttl'?

Toinen tapa käynnistää automaattiset siivoukset kipinässä on jakaa pitkään käynnissä olevat työt eri erissä ja kirjoittaa välitulos levylle.

31. Mainitse Akan rooli kipinässä?

Akka tekee aikataulutusprosessin kipinällä. Ajoitusprosessin avulla työntekijät ja esimiehet voivat lähettää tai vastaanottaa viestejä tehtävistä.

32. Selitä schemaRDD apache spark RDD:ssä?

RDD, joka kuljettaa useita riviobjekteja, kuten kääreitä tavallisen merkkijonon tai kokonaislukutaulukoiden ympärillä, ja joka sisältää kunkin sarakkeen tietotyyppejä koskevat kaaviotiedot, tunnetaan nimellä ShemaRDD. Se on kuitenkin nyt nimetty uudelleen DataFrame API:ksi.

33. Mikä on syy schemaRDD:n suunnitteluun?

SchemaRDD:n suunnittelun tarkoituksena on auttaa kehittäjiä koodin virheenkorjauksessa ja yksikkötestauksessa sparkSQL-ydinmoduulissa.

34. Miten elementit poistetaan, kun avain on missä tahansa muussa RDD:ssä?

Voit helposti poistaa elementit, kun avain on missä tahansa muussa RDD:ssä käyttämällä vähennysnäppäintä () -toimintoa.

35. Kerro ero persist()- ja cache()-

Käyttäjät voivat määrittää tallennustason persist () avulla, ja toisaalta välimuisti () käyttää oletustasoa.

36. Mitä tarkoitat Executor-muistilla kipinäsovelluksessa?

Kipinäsovittimelle jokaisessa kipinäsovelluksessa on kiinteä määrä ydintä ja kasakokoa. Spark-executor-muistia, jota -executor-memory -lipun spark.executor.memory-ominaisuus ohjaa, kutsutaan keon kooksi.

Jokaisella työsolmulla on kipinäsovelluksessa yksi suorittaja. Sovellus käyttää jonkin verran työsolmun muistia, ja suoritusmuisti auttaa mittaamaan sovelluksen käyttämän muistin määrää.

37. Millä tavoilla annetusta operaatiosta voidaan tunnistaa muunnos tai toiminto kipinäohjelmassa?

Käyttäjät voivat helposti tunnistaa toiminnon muunnokseksi tai toiminnoksi palautustyypin perusteella.

  • Operaatio on muunnos, kun palautustyyppi on sama kuin RDD.
  • Toiminto on toiminto, jonka palautustyyppi ei ole sama kuin RDD.

38. Mitkä ovat mielestäsi yleisimmät virheet, joita kipinäkehittäjät tekevät?

Jotkut yleisimmistä virheistä, joita kipinäkehittäjät tekevät, ovat seuraavat:

  • Kipinäkehittäjät saattavat tehdä virheitä ohjatessaan suunnattuja asyklisiä kaavioita (DAG).
  • Kipinäkehittäjät voivat myös tehdä virheitä säilyttäessään vaaditun koon sekoituslohkoille.

39. Mainitse joitain yrityksiä, jotka käyttävät kipinäsuoratoistoa?

Jotkut kipinäsuoratoistoa käyttävistä yrityksistä ovat seuraavat:

  • Uber
  • Netflix
  • Pinterest
  • Alibaba
  • Amazon

40. Voimmeko käyttää apache-sparkia vahvistusoppimiseen?

Apache-sparkia ei suositella vahvistusoppimiseen, koska se sopii vain yksinkertaisiin koneoppimisalgoritmeihin, kuten klusterointiin, regressioon ja luokitteluun.

41. Miten kipinä käsittelee valvontaa ja kirjaamista erillistilassa?

Apache spark käyttää verkkopohjaista käyttöliittymää klusterin seuraamiseen itsenäisessä tilassa, joka näyttää klusterin ja työtilastot. Lisäksi jokaisen työn lokitulos kirjoitetaan orjasolmujen työhakemistoon.

42. Ilmoita kipinäohjelman yhteinen työnkulku.

Spark-ohjelman yleinen työnkulku on seuraava:

  1. Ensimmäinen askel kipinäohjelmassa on luoda tulo-RDD:t ulkoisista tiedoista.
  2. Uusien muunnettujen RDD:iden luominen liiketoimintalogiikan perusteella käyttämällä useita RDD-muunnoksia, kuten Filter().
  3. Persist() kaikki väli-RDD:t, jotka on ehkä käytettävä uudelleen tulevaisuudessa.
  4. Aloita rinnakkaislaskenta käyttämällä erilaisia ​​RDD-toimintoja, kuten first(), count(). Spark optimoi ja suorittaa nämä toimet siten.

43. Mitä eroja on spark SQL:n ja Hiven välillä?

Seuraavassa on erot spark SQL:n ja Hiven välillä.

  • Jos käytät kipinä-SQL:ää, saatat tietää, että se on nopeampi kuin Hive.
  • Voit suorittaa a Pesä kysely spark SQL:ssä. Et kuitenkaan voi suorittaa SQL-kyselyä HIvessä.
  • Hive on kehys, kun taas Spark SQL on kirjasto.
  • Sitä ei tarvita metastoren luomiseen SQL:ssä. On kuitenkin pakollista luoda metastore Hiveen.
  • Spark SQL voi automaattisesti päätellä skeeman, mutta Hivessä sinun on tehtävä se manuaalisesti, koska skeema on ilmoitettava erikseen.

44. Mitä tarkoitat vastaanottimilla kipinävirtauksessa?

Spark-streamingin erikoisyksiköt tunnetaan vastaanottimina, koska ne kuluttavat dataa useista tietolähteistä ja paikantavat ne apache-sparkissa. Suoratoistokontekstit luovat vastaanottimet, koska pitkäkestoiset tehtävät ajoitetaan suoritettavaksi round-robin-tavalla, jolloin jokainen vastaanotin saa yhden ytimen.

45. Mitä tarkoitat liukuvalla ikkunalla kipinässä? Selitä esimerkillä.

Liukuvaa ikkunaa kipinässä käytetään määrittämään jokainen kipinävirtauserä, joka on läpäistävä käsittelyn. Liukuvan ikkunan avulla voit esimerkiksi asettaa eräkäsittelyn välit, jolloin tietyt erät käsitellään näillä aikaväleillä.

Johtopäätös

Toivomme, että pidit yllä mainituista apache spark -haastattelun kysymyksistä ja vastauksista. Nyt voit helposti murtaa kaikki suuren datan työhaastattelukysymyksesi. Käy läpi kaikki apache spark -haastattelun kysymykset ja vastaukset saadaksesi käsityksen siitä, millaisia ​​haastattelukysymyksiä big data -työhaastattelussa kysytään.