วันเสาร์ที่ 3 กันยายน พ.ศ. 2559

Hadoop training #day3


Impala เป็นตัว query คล้ายกับ Hive แต่เป็น in-memory database ที่ไม่ได้ใช้ MapReduce

Flume ใช้ในการจัดการ data stream ลักษณะของ log ประกอบด้วย

  • source (ที่มาของ streamming เช่น log ของ web server, twitter) 
  • sink (ปลายทาง hdfs) แล้วนำมาใช้ใน hive ต่อไป
zookeeper: ไว้ monitor health (Fail-Over)

เปลี่ยนเป็น text mode:  
systemctl set-default multi-user  (ครั้งต่อไป)
systemctl get-default   (ครั้งต่อไป)

ปัจจุบัน:  init 3

Spark: ทำงานเร็วกว่า Map Reduce 100 เท่า ใน memory และ 10 เท่า ใน disk (ไม่ใช้ MapReduce)
แต่ต้องเขียน code ซึ่ง สนับสนุน Java Scala Python R มาด้วย component ย่อย ๆ 
SQL, Streamming, MLib และ GraphX

spark-master ทำงาน namenode, 
spark-worker ทำงานที่ datanode

Presto เป็น เครื่องมือทำ Distributed SQL (พัฒนา โดย Facebook) สำหรับ Big Data เช่น Active Query 300 PB data warehouse มากกว่า 30,000 query  มี Airbnb, dropbox ก็ใช้ Presto

Presto ใช้ Hive metastore เท่านั้น ไม่ได้ใช้ feature SQL (beeline)  มี Presto (Coordinator - Worker) คล้ายกับ Spark ไม่ใช้ Map Reduce ทำงานได้ เร็วกว่า Hive เพราะทำงานเป็น in Memory

WebHDFS เป็น HTTP Rest API ยิงข้าม service เป็น WebHDFS กับ HttFS สามารถ download/upload file เข้าสู่ datanode โดยขอติดต่อที่ namenode ก่อน แล้ว namenode จะ redirect ไปยัง datanode ที่รับผิดชอบเอง เมื่อ datanode ที่รับผิดชอบได้ไฟล์แล้วก็จะมาทำสำเนา replicate ระหว่าง datanode เองภายหลัง

Cobbler เป็น Linux server provisioning tools มี dhcp เพื่อให้เครื่องลูกที่เปิดมา เชื่อมต่อและ download image ไปติดตั้ง คล้ายกับ Norton Ghost



ไม่มีความคิดเห็น: