Kazalo:

Kakšni so različni formati datotek v Hadoopu?
Kakšni so različni formati datotek v Hadoopu?

Video: Kakšni so različni formati datotek v Hadoopu?

Video: Kakšni so različni formati datotek v Hadoopu?
Video: Как сделать дипфейк видео с DeepFaceLab - полное руководство | Создание дипфейка от А до Я 2024, November
Anonim

Na vašo srečo se je skupnost velikih podatkov v bistvu odločila za tri optimizirane formati datotek za uporabo v Hadoop grozdi: Optimizirani stebri vrstic (ORC), Avro in Parket.

Kasneje se lahko vprašamo tudi, katere so različne vrste podatkovnih formatov?

Tam so drevesa vrste podatkov kartiranje in GIS formati podatkov . Vsak tip se obravnava drugače.

Vrste formatov podatkov

  • Na podlagi datotek – Shapefiles, Microstation Design Files (DGN), GeoTIFF slike.
  • Na podlagi imenika - ESRI ArcInfo Coverages, US Census TIGER.
  • Povezave z bazo podatkov - PostGIS, ESRI ArcSDE, MySQL.

Poleg tega, kateri format datoteke je najboljši v panju? RCFile je stolpec vrstice format datoteke . To je druga oblika Oblika datoteke Hive ki ponuja visoke stopnje stiskanja ravni vrstic. Če imate zahtevo po izvajanju več vrstic hkrati, lahko uporabite RCFile formatu.

Kateri so običajni vhodni formati v Hadoopu, če upoštevamo to?

InputFormat ustvari Inputsplit

  • Najpogostejši format vnosa so:
  • FileInputFormat - To je osnovni razred za vse datoteke, ki temeljijo na InputFormat.
  • TextInputFormat- To je privzeti InputFormat zaMapReduce.
  • KeyValueTextInputFormat- je podoben TextInputFormat.
  • Sledite povezavi, če želite izvedeti več o InputFormat v Hadoopu.

Kaj je format datoteke orc v Hadoopu?

Format datoteke ORC Optimizirani stolpec vrstice ( ORC ) format datoteke zagotavlja zelo učinkovit način za shranjevanje podatkov Hive. Zasnovan je bil za premagovanje omejitev drugega panja formati datotek . Uporaba ORC datoteke izboljša zmogljivost, ko Hive bere, piše in obdeluje podatke.

Priporočena: