เทคนิคการจัดกลุ่ม (Clustering)



     เทคนิคการจัดกลุ่ม (Clustering) ตามหลักการของการขุดค้นข้อมูล (Data Mining) จะต่างกับการแบ่งกลุ่มในเชิงสถิติ เนื่องจากการแบ่งกลุ่มทางสถิติ จะหมายถึง การทำการสุ่มข้อมูล(Sampling) เช่น มีข้อมูลอยู่ 30 กลุ่มซึ่งมีลักษณะไม่แตกต่างกันมาก ก็จะแบ่งกลุ่มโดยวิธีการสุ่มใช้ข้อมูลเพียงบางกลุ่มเท่านั้น ส่วนการทำการแบ่งกลุ่มทางด้านการขุดค้นข้อมูลนั้น จะหมายถึง การแบ่งกลุ่มที่ต้องใช้ข้อมูลของทุกกลุ่มในการหาจุดเด่นของแต่ละกลุ่มออกมาให้เห็นอย่างชัดเจน เพื่อได้มาซึ่งลักษณะเฉพาะของกลุ่มนั้นๆ
ความหมายของการจัดกลุ่มด้วยเทคนิค Cluster Analysis
Cluster Analysis เป็นเทคนิคที่ใช้จำแนกหรือแบ่ง Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือแบ่งตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่มเดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกัน จะมีลักษณะที่แตกต่างกัน ดังนั้น การพิจารณาเลือกลักษณะหรือตัวแปรที่จะนำมาใช้ในการแบ่งกลุ่ม Case จึงมีความสำคัญ นอกจากนั้น Case ใด Case หนึ่งจะต้องอยู่ในกลุ่มหนึ่งเพียงกลุ่มเดียวถ้านำเทคนิค Cluster Analysis มาใช้ในการแบ่งกลุ่มตัวแปร จะให้ตัวแปรอยู่ในกลุ่มเดียวกันมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันมีความสัมพันธ์กันน้อยหรือไม่มีความสัมพันธ์กันเลย ส่วนใหญ่การแบ่งกลุ่มตัวแปรจะใช้เทคนิค Factor ส่วนการแบ่งกลุ่ม Case (คน สัตว์ สิ่งของ) จะใช้เทคนิค Cluster Analysis


วัตถุประสงค์ของ Cluster Analysis เพื่อการลดขนาดข้อมูล (data reduction) ด้วยเทคนิคที่แม่นยำและมีประสิทธิภาพเป็นอีกแนวทางหนึ่งเพื่อจัด การกับปัญหาดังกล่าว หลักการที่สำคัญของการลดขนาดข้อมูลคือ การทำให้ข้อมูลตั้งต้นมีขนาดลดลงโดยสูญเสียลักษณะสำคัญของข้อมูลน้อยที่สุด เนื่องจากข้อมูลแต่ละตัวจะมีความสำคัญต่อการจัดกลุ่มข้อมูลไม่เท่ากัน ด้วยเทคนิคการเลือกข้อมูลที่ดีจะ ทำให้สามารถเลือกข้อมูลที่มีความสำคัญและสามารถใช้เป็นตัวแทนของข้อมูลส่วนใหญ่ได้ ข้อมูลที่มีการรวมกลุ่มกันอย่างหนาแน่นจะเป็นข้อมูลที่มีความสำคัญต่อการจัดกลุ่มข้อมูลในอนาคต
คุณสมบัติของเทคนิควิธี Cluster Analysis
1**ความต้องการทางด้านข้อมูล สำหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ ผู้วิจัยอาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย เช่น การวิเคราะห์ที่ได้ กล่าวมาแล้วข้องต้น ส่วนการวิเคราะห์จัดกลุ่มตัวแปร ผู้วิจัยไม่อาจจะใช้แฟ้มข้อมูลดังกล่าวได้โดยใช้เมตริกแสดงความสัมพันธ์ระหว่างตัวแปรแทนได้
2**แนวคิดพื้นฐาน สิ่งสำคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ใช้หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สำคัญ ๆ ผลที่ได้ก็จะไม่ดีหรือทำให้ไขว้เขวได้ ทั้งนี้เพราะตัวแปรที่เลือกไว้ตั้งแต่แรกจะเป็นสิ่งที่กำหนดคุณสมบัติของสิ่งที่ระบุความเป็นกลุ่มย่อย เช่นในการจัดกลุ่มโรงเรียนในเมือง หากผู้วิจัยไม่เก็บข้อมูลเกี่ยวกับจำนวนนักเรียนและครู ขนาดของโรงเรียนก็ไม่อาจเป็นเกณฑ์ในการแบ่งกลุ่มได้
3**ความคล้ายกันของหน่วย ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษาเป็นเทคนิคของการวิเคราะห์ทางสถิติหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณาจากความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน ซึ่งจะกล่าวโดยละเอียดในหัวข้อต่อไป
4**การวัดความห่าง วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยมวัดกันมากก็คือ วิธีที่เรียกว่า ระยะห่างเชิงยูคลิดยกกำลังสอง (Squared Euclidean distance) คือ ผลรวมของผลต่างยกกำลังสองของทุกตัวแปร เช่น ต้องการดูความห่างกันของเบียร์ 2 ยี่ห้อ ซึ่งทราบราคา