Impala เป็นตัว query คล้ายกับ Hive แต่เป็น in-memory database ที่ไม่ได้ใช้ MapReduce
Flume ใช้ในการจัดการ data stream ลักษณะของ log ประกอบด้วย
- source (ที่มาของ streamming เช่น log ของ web server, twitter)
- sink (ปลายทาง hdfs) แล้วนำมาใช้ใน hive ต่อไป
zookeeper: ไว้ monitor health (Fail-Over)
เปลี่ยนเป็น text mode:
systemctl set-default multi-user (ครั้งต่อไป)
systemctl get-default (ครั้งต่อไป)
ปัจจุบัน: init 3
Spark: ทำงานเร็วกว่า Map Reduce 100 เท่า ใน memory และ 10 เท่า ใน disk (ไม่ใช้ MapReduce)
แต่ต้องเขียน code ซึ่ง สนับสนุน Java Scala Python R มาด้วย component ย่อย ๆ
SQL, Streamming, MLib และ GraphX
spark-master ทำงาน namenode,
spark-worker ทำงานที่ datanode
Presto เป็น เครื่องมือทำ Distributed SQL (พัฒนา โดย Facebook) สำหรับ Big Data เช่น Active Query 300 PB data warehouse มากกว่า 30,000 query มี Airbnb, dropbox ก็ใช้ Presto
Presto ใช้ Hive metastore เท่านั้น ไม่ได้ใช้ feature SQL (beeline) มี Presto (Coordinator - Worker) คล้ายกับ Spark ไม่ใช้ Map Reduce ทำงานได้ เร็วกว่า Hive เพราะทำงานเป็น in Memory
WebHDFS เป็น HTTP Rest API ยิงข้าม service เป็น WebHDFS กับ HttFS สามารถ download/upload file เข้าสู่ datanode โดยขอติดต่อที่ namenode ก่อน แล้ว namenode จะ redirect ไปยัง datanode ที่รับผิดชอบเอง เมื่อ datanode ที่รับผิดชอบได้ไฟล์แล้วก็จะมาทำสำเนา replicate ระหว่าง datanode เองภายหลัง
Cobbler เป็น Linux server provisioning tools มี dhcp เพื่อให้เครื่องลูกที่เปิดมา เชื่อมต่อและ download image ไปติดตั้ง คล้ายกับ Norton Ghost
ไม่มีความคิดเห็น:
แสดงความคิดเห็น