01 Data Lakehouse
Data Lakehouse คือสถาปัตยกรรมข้อมูลสมัยใหม่ที่ผสานคุณสมบัติของ Data Lake และ Data Warehouse เข้าไว้ด้วยกัน โดยมีทั้งความยืดหยุ่นและความสามารถในการรองรับข้อมูลปริมาณมหาศาลแบบ Data Lake พร้อมด้วยความสามารถด้านโครงสร้างข้อมูลและการประมวลผลเชิงวิเคราะห์แบบ Data Warehouse การทำความเข้าใจคำศัพท์พื้นฐานของ Data Lakehouse ถือเป็นสิ่งสำคัญในการใช้งานสถาปัตยกรรมประเภทนี้ในภาคธุรกิจที่กำลังเติบโตอย่างต่อเนื่อง
02 Structured Data
คำว่า “Structured Data” หมายถึงข้อมูลที่มีการจัดรูปแบบอย่างดีและเป็นระเบียบ สามารถจัดเก็บลงในฐานข้อมูลแบบเชิงสัมพันธ์หรือรูปแบบตารางได้อย่างชัดเจน Structured Data มักมี แบบจำลองที่กำหนดไว้ล่วงหน้าและมีการนิยามความสัมพันธ์ระหว่างข้อมูลอย่างชัดเจน ภายใน Data Lakehouse ข้อมูลที่มีโครงสร้างสามารถเก็บในรูปแบบที่คล้ายกับ Data Warehouse เพื่อให้รองรับการสืบค้นและการวิเคราะห์ได้อย่างมีประสิทธิภาพ ซึ่งมักใช้เทคโนโลยี เช่น Apache Spark หรือ SQL Engines
03 Unstructured Data
“Unstructured Data” คือข้อมูลที่ไม่มีโครงสร้างหรือรูปแบบที่กำหนดชัดเจน ไม่สามารถจัดเก็บลงในฐานข้อมูลแบบเดิมได้ง่าย และมักวิเคราะห์ได้ยากกว่า ตัวอย่างเช่น ข้อความ รูปภาพ วิดีโอ ไฟล์เสียง หรือข้อมูลอื่น ๆ ที่ไม่เป็นไปตามรูปแบบตายตัว ภายใน Data Lakehouse ข้อมูลแบบไม่มีโครงสร้างสามารถจัดเก็บในรูปแบบดั้งเดิม (native format) ได้ โดยใช้เครื่องมือขั้นสูง เช่น Analytics Tools หรือ Machine Learning เพื่อนำข้อมูลเหล่านั้นมาวิเคราะห์ให้เกิดประโยชน์ นอกจากนี้ การจัดการ Metadata ถือเป็นสิ่งสำคัญ เพื่อช่วยให้ผู้ใช้งานเข้าใจที่มาของข้อมูล รูปแบบข้อมูล และความสัมพันธ์กับชุดข้อมูลอื่น ๆ
04 Metadata
Metadata คือข้อมูลที่อธิบายคุณลักษณะหรือรายละเอียดของข้อมูลอื่น ๆ เช่น แหล่งที่มาของข้อมูล ประเภทข้อมูล วันที่สร้าง หรือความสัมพันธ์ระหว่างข้อมูล Metadata มีความสำคัญอย่างยิ่งในระบบ Data Lakehouse เนื่องจากช่วยให้สามารถทำความเข้าใจ บริหารจัดการ และกำกับดูแลข้อมูลได้อย่างถูกต้อง
05 Schema
คำว่า “Schema” หมายถึงแบบจำลองหรือโครงสร้างที่กำหนดวิธีการจัดเก็บข้อมูล เช่น รูปแบบข้อมูล ชนิดข้อมูล ฟิลด์ต่าง ๆ รวมทั้งข้อจำกัดและความสัมพันธ์ระหว่างข้อมูล โดยเฉพาะอย่างยิ่งกับข้อมูลแบบมีโครงสร้าง Schema คือรากฐานสำคัญของการจัดระเบียบข้อมูล
06 Data Integration
Data Integration คือกระบวนการรวบรวมข้อมูลจากหลายแหล่งให้กลายเป็นมุมมองแบบรวมศูนย์ ภายใน Data Lakehouse การผสานข้อมูลช่วยให้ข้อมูลจากหลายรูปแบบและหลายแหล่ง สามารถนำมาจัดเก็บ วิเคราะห์ และใช้งานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะการรวมข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างเข้าด้วยกัน
07 Data Catalog
Data Catalog คือคลังข้อมูลกลางที่จัดเก็บ Metadata ของชุดข้อมูลทั้งหมดในระบบ โดยช่วยให้ผู้ใช้งานสามารถค้นหา ระบุ และเข้าถึงชุดข้อมูลต่าง ๆ ภายใน Lakehouse ได้อย่างสะดวก รวมถึงช่วยจัดระเบียบทรัพยากรข้อมูลให้มีความเป็นระบบมากขึ้น
08 Data Lineage
Data Lineage หมายถึงการติดตามเส้นทางของข้อมูลตั้งแต่ต้นทางจนถึงปลายทาง รวมถึงการเปลี่ยนแปลงต่าง ๆ ระหว่างกระบวนการ เป็นส่วนสำคัญที่ช่วยให้เห็นภาพการเคลื่อนที่ของข้อมูล ทำให้เกิดความโปร่งใสและความรับผิดชอบในกระบวนการจัดการข้อมูล
09 Data Pipeline
Data Pipeline คือชุดของกระบวนการและ workflow ที่ใช้ในการเคลื่อนย้ายและแปลงข้อมูลจากต้นทางไปยังปลายทางภายในระบบ Data Lakehouse ช่วยให้ข้อมูลถูกส่งผ่านและประมวลผลแบบอัตโนมัติและมีประสิทธิภาพ
10 Data Warehouse
Data Warehouse คือคลังข้อมูลแบบรวมศูนย์สำหรับจัดเก็บข้อมูลที่มีโครงสร้างจากหลายแหล่งภายในองค์กร ถูกออกแบบมาสำหรับการสืบค้น การรายงาน และการวิเคราะห์เชิงลึก กระบวนการ ETL (Extract, Transform, Load) มักถูกใช้เพื่อเตรียมข้อมูลให้อยู่ในรูปแบบที่เหมาะสมต่อการวิเคราะห์
11 Data Lake
Data Lake คือคลังข้อมูลแบบรวมศูนย์ที่สามารถรองรับข้อมูลดิบจำนวนมาก รวมถึงข้อมูลแบบไม่มีโครงสร้าง โดยไม่จำเป็นต้องกำหนดโครงสร้างข้อมูลล่วงหน้า แตกต่างจาก Data Warehouse ที่ต้องเตรียมข้อมูลให้เป็นรูปแบบเฉพาะก่อนจัดเก็บ Data Lake เหมาะสำหรับการสำรวจและวิเคราะห์ข้อมูลหลายประเภททั้งแบบ Structured และ Unstructured
12 Data Analytics
Data Analytics คือกระบวนการวิเคราะห์ข้อมูลเพื่อค้นหารูปแบบ แนวโน้ม และข้อมูลเชิงลึกที่นำไปสู่การตัดสินใจที่มีประสิทธิภาพ เครื่องมือที่ใช้มีตั้งแต่สถิติพื้นฐานไปจนถึง Machine Learning และ Data Mining ซึ่งช่วยให้ดึงข้อมูลเชิงลึกจากข้อมูลดิบได้อย่างมีประสิทธิภาพ
13 Business Intelligence (BI)
Business Intelligence คือเทคโนโลยี กระบวนการ และเครื่องมือต่าง ๆ ที่ช่วยในการรวบรวม วิเคราะห์ และนำเสนอข้อมูลทางธุรกิจ เพื่อสนับสนุนการตัดสินใจเชิงกลยุทธ์และการดำเนินงาน BI ช่วยแปลงข้อมูลดิบให้เป็นข้อมูลเชิงลึกที่ใช้ในการดำเนินธุรกิจได้จริง
14 Compliance
Compliance ในบริบทของการจัดการข้อมูล หมายถึงการปฏิบัติตามกฎหมาย ระเบียบข้อบังคับ มาตรฐาน และนโยบายภายในที่เกี่ยวข้องกับการจัดเก็บ ประมวลผล หรือแบ่งปันข้อมูล รวมถึงประเด็นด้านความเป็นส่วนตัวและความปลอดภัย เพื่อป้องกันความเสี่ยงทางกฎหมายและการกำกับดูแล
การทำความเข้าใจคำศัพท์เกี่ยวกับ Data Lakehouse เหล่านี้ ช่วยให้องค์กรสามารถพัฒนากลยุทธ์ด้านการจัดการข้อมูลได้อย่างมีประสิทธิภาพ รองรับการผสานรวม การวิเคราะห์ และการกำกับดูแลข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างภายในสถาปัตยกรรม Lakehouse ขององค์กร