อะไรคือ Analytical MPP Database
MPP ต่อมาจาก Massively Parallel Processing คือ Database ชนิดหนึ่งที่ออกแบบมาเพื่อทำหน้าที่เป็น OLAP Database ในระบบ Data Warehouse อันเนื่องมาจากข้อจำกัดเดิมของระบบ OLAP Database เดิมที่ใช้ RDBMS ซึ่งรองรับชนิดของข้อมูลที่จำกัดในยุคของ Big Data. MPP Database ถูกออกแบบมาสำหรับงาน Analytical Workloads โดยเฉพาะ โดยรองรับปริมาณข้อมูลขนาดใหญ่ได้ โดยทั่วไปแล้ว MPP Database จะใช้เทคโนโลยีจัดเก็บข้อมูลแบบชนิดที่เรียกว่า Columnar ซึ่ง RDBMS จะเก็บแบบ Row เป็น Table ซึ่งเหมาะสมกับลักษณะของ transactional databases อยู่แล้ว สำหรับ MPP Databases จะถูกออกแบบมาในเรื่องของการ Process Query ข้อมูลที่รวดเร็วในปริมาณมากให้เกิดประสิทธิภาพสูงสุด
MPP Database โดยทั่วไปแล้วจะถูกออกแบบมาสำหรับติดตั้งในลักษณะ Multi Node คือติดตั้งหลายๆเครื่องทำ Cluster สามารถทำ Scale Out ได้
การใช้งานในองค์กร
โดยทั่วไปแล้วองค์กรใช้ MPP Databases สำหรับงาน Data warehouse โดยถูกออกแบบมาในลักษณะทำเป็น Centralized Data ในองค์กรหรืออาจจะเรียกว่า Data Lake ในองค์กรก็ได้ โดยรวมข้อมูลทุกอย่างที่จำเป็นสำหรับการนำมาวิเคราะห์ เช่น ข้อมูล Transaction Sales, Social Data, Web Log, Marketing Data, Customer services, Inventory, HR data, System log ซึ่งข้อมูลต่างๆทั้งแบบโครงสร้างและไร้โครงสร้างจะสามารถนำมาวิเคราะห์เพื่อประโยชน์ทางธุรกิจได้
การขยายระบบ
เนื่องจาก MPP Database ถูกออกแบบมาสำหรับข้อมูลขนาดใหญ่ ดังนั้นการขยายระบบจึงเป็นสิ่งสำคัญ MPP Database รองรับการ Horizontal Scalability โดยขยายได้ทั้ง node เพื่อการประมวลผลที่ดีขึ้นและการขยายพื้นที่จัดเก็บข้อมูล Data Distribution
Technology MPP Databases มีอะไรบ้าง
ที่ดังๆเช่น HPE Vertica, Teradata ส่วนที่ให้บริการเป็น Cloud อทิเช่น Amazon Redshift, Azure SQL Data Warehouse, Google BigQuery, Snowflake และที่เป็น Open Source เช่น MemSQL, Greenplum Database (Commercial ใช้ชื่อว่า Pivotal Greenplum), Presto (Commercial TeraData), Apache Drill เป็นต้น ทั้งนี้ทั้งนั้นขึ้นอยู่กับความเหมาะสมและงบประมาณ
โดยในแต่ละ Vendor ที่กล่าวมาก็มีเทคโนโลยีเป็นของตัวเองในการทำงานในลักษณะ MPP Databases ทั้งสิ้น
แต่อย่างไรก็ตาม MPP Databases ถูกออกแบบมาเพื่อแก้ไขข้อจำกัดของ OLAP Database บนระบบ Data Warehouse แบบเดิมก็จริง แต่ในเรื่องของ Solution การนำ Data เข้า รวมทั้งการทำ ETL ก็ยังคงใช้ระบบเช่นเดิมเหมือน Data Warehouse ปกติ แต่เพียงเพิ่มความสามารถในการ Integrate ข้อมูลบน MPP Database ได้เท่านั้นเอง
MPP Database กับ Big Data Platform
โดยทั่วไปแล้ว Hadoop ถูกออกแบบมาสำหรับงาน Batch Processing การทำ Query Data จะค่อนข้างช้าเพราะไม่ได้ออกแบบมาเพื่อ Cache Data บน Memory เหมือนบางเทคโนโลยี ดังนั้น MPP Database จึงเข้ามาแก้ไขข้อจำกัดเรื่องนี้ เพราะ MPP Database ส่วนใหญ่มักทำงานในลักษณะ In-memory DB และใช้เทคโนโลยี Big Data ในการจัดเก็บข้อมูล เช่น Hadoop, NoSQL อีกทั้ง Big Data Platform ที่ออกแบบมาพร้อมกับเทคโนโลยี MPP Databases จะมีความสามารถใช้เครื่องมือเดิมที่ใช้ในระบบ Data Warehouse เดิมได้เช่น BI Tools, ETL Tools ก็สามารถนำมาใช้กับ Big Data Platform ที่มี MPP Databases ได้นั้นเอง
MPP Database กับ Business Intelligence Tools (BI Tools)
ด้วยวัตถุประสงค์ของ MPP Database ถูกออกแบบมาสำหรับการทำหน้าที่แทน OLAP Database บน Data Warehouse ดังนั้น BI Tools ก็จะสามารถเชื่อมต่อเข้ามาใน MPP Database เพื่อทำ Report หรือ Visualize Data ได้เช่นกัน ส่งผลให้ Business Users หรือ Data Analyst Users สามารถใช้ประโยชน์จากข้อมูล Big Data บน MPP Databases ได้
จาก Data Lake 1.0 สู่ Data Lake 2.0
Data Lake 1.0 จะถูกออกแบบมาสำหรับการจัดเก็บข้อมูล Raw Data เท่านั้นเพื่อวัตถุประสงค์สำหรับ Data Scientist เข้าถึงข้อมูลเพื่อวิเคราะห์หรือทำเป็น Experimental Data Science System แต่ Data Lake 2.0 หรือเรียก Big Data Platform ถูกออกแบบในลักษณะ Self Services และเพิ่มเติมเรื่องของ Security ด้วยการกำหนดสิทธิ์การใช้ข้อมูล และการใช้งานเน้นไปที่ Data Analyst ซึ่งเป็น Business Users ทำงานได้ จากเดิม Data Scientist อย่างเดียว อีกทั้งยังมีเครื่องมือเฉพาะที่ใช้ในการวิเคราะห์ข้อมูล เช่น SQL Query Engine, Data Profilling, Data Quality และ Data Visualization มาพร้อมใช้ หรือบางระบบ มุ่งเน้นไปในการจัดเก็บข้อมูลชนิดใดชนิดหนึ่งและระบบวิเคราะห์ข้อมูลแบบสำเร็จรูปพร้อมใช้ สรุปคือ Data Lake 2.0 จะมีความสามารถพร้อมใช้ เหมาะสำหรับ Enterprise มากกว่านั้นเอง
Softnix Data Platform กับเทคโนโลยี MPP Databases
Softnix Data Platform หรือ SDP ถูกออกแบบมาสำหรับทำหน้าที่เป็น Data Lake สำหรับองค์กร ที่มีความสามารถในเรื่องของ MPP Databases อยู่ด้วย รองรับ SQL Query Engine ประสิทธิภาพสูงทำงานบน Big Data Hadoop จึงทำให้รองรับการ Query Data ขนาดใหญ่ อีกทั้งยังมีความสามารถในเรื่องของการทำหน้าที่เป็น Data Visualization เพื่อให้ Data Analyst Users สามารถวิเคราะห์และสร้างรายงานข้อมูลได้ด้วยตัวเอง นอกเหนือจากนั้นยังรองรับการเชื่อมต่อร่วมกับ Business Intelligence Software ทั่วไปได้อีกด้วย ซึ่งจะทำให้ BI Software เหล่านั้น ดึงข้อมูล Big Data ไปทำ Visualization ได้อย่างรวดเร็ว สร้างระบบ Interactive Data ได้อย่างมีประสิทธิภาพ สนใจข้อมูลเกี่ยวกับ Softnix Data Platform ได้ที่นี่. https://www.softnix.co.th/softnix-data-platform/
ที่มา : www.softnix.co.th