Kakšna je težava z majhnimi datotekami v Hadoopu?
Kakšna je težava z majhnimi datotekami v Hadoopu?

Video: Kakšna je težava z majhnimi datotekami v Hadoopu?

Video: Kakšna je težava z majhnimi datotekami v Hadoopu?
Video: Kastrup Λ Vervaeke: загрузка разума и интеграция теней 2024, Maj
Anonim

1) Težava z majhno datoteko v HDFS : Shranjevanje veliko majhne datoteke ki so izjemno manjši kot velikosti bloka ni mogoče učinkovito obravnavati HDFS . Branje skozi majhne datoteke vključuje veliko iskanj in veliko skakanja med podatkovnim vozliščem do podatkovnega vozlišča, kar je posledično neučinkovita obdelava podatkov.

Poleg tega, katere datoteke se ukvarjajo z majhnimi težavami z datotekami v Hadoopu?

1) HAR ( Hadoop Arhiv) Datoteke je bil predstavljen obravnavati težave z majhnimi datotekami . HAR je uvedel plast na vrhu HDFS , ki nudijo vmesnik za mapa dostopa. Uporaba Hadoop arhivski ukaz, HAR datoteke so ustvarjene, ki teče a MapReduce delo za pakiranje datoteke se arhivira v manjši število HDFS datoteke.

Poleg tega, ali lahko več datotek v HDFS uporablja različne velikosti blokov? Privzeto velikost od blok je 64 MB. ti lahko spremenite glede na vaše potrebe. Ko pridem do vašega vprašanja, ja lahko ustvari več datotek z spreminjanjem velikosti blokov ampak to v realnem času volja ne dajejo prednosti proizvodnji.

Še več, zakaj HDFS ne obravnava optimalno majhnih datotek?

Težave z majhne datoteke in HDFS Vsak mapa , imenik in blok v HDFS je predstavljen kot objekt v pomnilniku imenskega vozlišča, od katerih vsak zaseda 150 bajtov, kot pravilo. poleg tega HDFS ni usmerjeno k učinkovitemu dostopu majhne datoteke : to je namenjen predvsem za pretakanje dostopa do velikih datoteke.

Zakaj je Hadoop počasen?

Počasi Hitrost obdelave Ta disk išče zahteva čas, s čimer je celoten proces zelo počasi . Če Hadoop obdeluje podatke v majhni količini, je zelo počasi primerjalno. Idealen je za velike nabore podatkov. Kot Hadoop ima motor za paketno obdelavo v jedru, njegova hitrost obdelave v realnem času je manjša.

Priporočena: