วันเสาร์ที่ 3 กันยายน พ.ศ. 2559

Hadoop Training #day2

ตัวข้อมูลของ Big Data ใหญ่จนไม่สามารถนำมารวมกันประมวลผลครั้งเดียวได้ (TB หรือ PB) แต่ในทางกลับกัน โปรแกรมที่ประมวลมีขนาดเล็ก (ไม่กี่ MB) ทำให้เรากระจายโปรแกรม ไปประมวลผลกับข้อมูลที่กระจายไปอยู่ในที่ต่าง ๆ ข้อมูลอยู่ที่ไหน เครื่องนั้นต้องประมวลผล เป็นลักษณะ Batch processing

Hadoop เริ่มแรกมีข้อจำกัด เกี่ยวกับการแบ่งงานไปให้ Map/Reduce จึงได้พัฒนาการจัดการกับ namenode โดยใช้ YARN (Yet Another Resource Negoitator) เข้ามาช่วยจัดการ ประกอบด้วย Resource manager ที่มาแทน Task Tracker

กำหนด memory และ cpu core ให้กับ yarn สำหรับ namenode และ datanode ใน yarn-site.xml

Cloudera Hadoop (CDH) = opensource software distro ที่เอา CentOs มา onTop

Hadoop platform
  • Cloudera
  • Hartonwork
  • MapR
 ทดลอง ใช้ Map/Reduce กับโปรแกรม wordcount.java

Hive
Hive เป็นงานของ Data Warehouse ไม่เน้น insert, delete, update แต่เน้น select เพื่อวิเคราะห์ข้อมูล โดย facebook พัฒนา HiveQL ให้ใกล้เคียง standard SQL มากที่สุด (SQL interface สำหรับ MapReduce) ปัจจุบันเปลี่ยนเป็น beeline

Mahout (มา-ฮู) เป็นเครื่องมือทำ Machine learning

Yarn พัฒนา Resource manager เพื่อเปิดโอกาสให้ data processing ตัวอื่น (นอกเหนือจาก Map Reduce ทีเป็น Hadoop version แรก) เข้ามาร่วมประมวลผลด้วย

Sqoop
เป็นเครื่องมือที่ใช้ในการ import/export ข้อมูลระหว่าง mysql (MariaDB) กับ File
ปัญหา JAVA_HOME ต้องไปแก้ใน /etc/default/bigtop-utils เพิ่ม export JAVA_HOME=/opt/jdk1.8.0_92/

Hue
GUI สำหรับใช้งาน hadoop




ไม่มีความคิดเห็น: