Kaj je RDD v Scali?
Kaj je RDD v Scali?

Video: Kaj je RDD v Scali?

Video: Kaj je RDD v Scali?
Video: Baby Shark Dance | #babyshark Most Viewed Video | Animal Songs | PINKFONG Songs for Children 2024, November
Anonim

Odporni porazdeljeni nabori podatkov ( RDD ) je temeljna podatkovna struktura Spark. Je nespremenljiva porazdeljena zbirka predmetov. RDD lahko vsebuje katero koli vrsto Python, Java ali Scala predmeti, vključno z uporabniško definiranimi razredi. Formalno, an RDD je samo za branje, particionirana zbirka zapisov.

Vprašanje je tudi, kakšna je razlika med RDD in DataFrame?

RDD – RDD je porazdeljena zbirka podatkovnih elementov, razporejenih po številnih strojih v grozd. RDD so nabor predmetov Java ali Scala, ki predstavljajo podatke. DataFrame – A DataFrame je porazdeljena zbirka podatkov, organizirana v poimenovane stolpce. Konceptualno je enak tabeli v relacijsko bazo podatkov.

Poleg tega, kako je RDD porazdeljen? Odporen Porazdeljeno Nabori podatkov ( RDD ) So a porazdeljeno zbirka predmetov, ki so shranjeni v pomnilniku ali na diskih različnih strojev gruče. Samski RDD je mogoče razdeliti na več logičnih particij, tako da je mogoče te particije shraniti in obdelati na različnih strojih v gruči.

kako deluje spark RDD?

RDD v Iskra imajo zbirko zapisov, ki vsebujejo particije. RDD v Iskra so razdeljeni na majhne logične kose podatkov - znane kot particije, ko se izvede dejanje, se naloga zažene na particijo. Particije v RDD so osnovne enote paralelizma.

Kateri je hitrejši RDD ali DataFrame?

RDD - Med izvajanjem preprostih operacij združevanja in združevanja RDD API je počasnejši. DataFrame - pri izvajanju raziskovalne analize, ustvarjanju agregiranih statistik podatkov, podatkovni okvirji so hitreje . RDD - Ko želite preoblikovanje in dejanja na nizki ravni, uporabimo RDD . Tudi, ko potrebujemo abstrakcije na visoki ravni, jih uporabimo RDD.

Priporočena: