Hadoop เริ่มแรกมีข้อจำกัด เกี่ยวกับการแบ่งงานไปให้ Map/Reduce จึงได้พัฒนาการจัดการกับ namenode โดยใช้ YARN (Yet Another Resource Negoitator) เข้ามาช่วยจัดการ ประกอบด้วย Resource manager ที่มาแทน Task Tracker
กำหนด memory และ cpu core ให้กับ yarn สำหรับ namenode และ datanode ใน yarn-site.xml
Hadoop platform
- Cloudera
- Hartonwork
- MapR
Hive
Hive เป็นงานของ Data Warehouse ไม่เน้น insert, delete, update แต่เน้น select เพื่อวิเคราะห์ข้อมูล โดย facebook พัฒนา HiveQL ให้ใกล้เคียง standard SQL มากที่สุด (SQL interface สำหรับ MapReduce) ปัจจุบันเปลี่ยนเป็น beeline
Mahout (มา-ฮู) เป็นเครื่องมือทำ Machine learning
Yarn พัฒนา Resource manager เพื่อเปิดโอกาสให้ data processing ตัวอื่น (นอกเหนือจาก Map Reduce ทีเป็น Hadoop version แรก) เข้ามาร่วมประมวลผลด้วย
Sqoop
เป็นเครื่องมือที่ใช้ในการ import/export ข้อมูลระหว่าง mysql (MariaDB) กับ File
ปัญหา JAVA_HOME ต้องไปแก้ใน /etc/default/bigtop-utils เพิ่ม export JAVA_HOME=/opt/jdk1.8.0_92/
Hue
GUI สำหรับใช้งาน hadoop
ไม่มีความคิดเห็น:
แสดงความคิดเห็น