เทคนิคการจัดกลุ่ม (Clustering) ตามหลักการของการขุดค้นข้อมูล
(Data Mining) จะต่างกับการแบ่งกลุ่มในเชิงสถิติ เนื่องจากการแบ่งกลุ่มทางสถิติ จะหมายถึง การทำการสุ่มข้อมูล(Sampling) เช่น มีข้อมูลอยู่ 30 กลุ่มซึ่งมีลักษณะไม่แตกต่างกันมาก
ก็จะแบ่งกลุ่มโดยวิธีการสุ่มใช้ข้อมูลเพียงบางกลุ่มเท่านั้น ส่วนการทำการแบ่งกลุ่มทางด้านการขุดค้นข้อมูลนั้น
จะหมายถึง การแบ่งกลุ่มที่ต้องใช้ข้อมูลของทุกกลุ่มในการหาจุดเด่นของแต่ละกลุ่มออกมาให้เห็นอย่างชัดเจน
เพื่อได้มาซึ่งลักษณะเฉพาะของกลุ่มนั้นๆ
ความหมายของการจัดกลุ่มด้วยเทคนิค
Cluster Analysis
Cluster Analysis เป็นเทคนิคที่ใช้จำแนกหรือแบ่ง
Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือแบ่งตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป
Case ที่อยู่ในกลุ่มเดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน
ส่วน Case ที่อยู่ต่างกลุ่มกัน จะมีลักษณะที่แตกต่างกัน ดังนั้น
การพิจารณาเลือกลักษณะหรือตัวแปรที่จะนำมาใช้ในการแบ่งกลุ่ม Case จึงมีความสำคัญ นอกจากนั้น Case ใด Case หนึ่งจะต้องอยู่ในกลุ่มหนึ่งเพียงกลุ่มเดียวถ้านำเทคนิค Cluster
Analysis มาใช้ในการแบ่งกลุ่มตัวแปร จะให้ตัวแปรอยู่ในกลุ่มเดียวกันมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่ต่างกลุ่มกัน
ตัวแปรที่อยู่ต่างกลุ่มกันมีความสัมพันธ์กันน้อยหรือไม่มีความสัมพันธ์กันเลย ส่วนใหญ่การแบ่งกลุ่มตัวแปรจะใช้เทคนิค
Factor ส่วนการแบ่งกลุ่ม Case (คน สัตว์ สิ่งของ)
จะใช้เทคนิค Cluster Analysis
วัตถุประสงค์ของ Cluster Analysis เพื่อการลดขนาดข้อมูล
(data reduction) ด้วยเทคนิคที่แม่นยำและมีประสิทธิภาพเป็นอีกแนวทางหนึ่งเพื่อจัด
การกับปัญหาดังกล่าว หลักการที่สำคัญของการลดขนาดข้อมูลคือ การทำให้ข้อมูลตั้งต้นมีขนาดลดลงโดยสูญเสียลักษณะสำคัญของข้อมูลน้อยที่สุด
เนื่องจากข้อมูลแต่ละตัวจะมีความสำคัญต่อการจัดกลุ่มข้อมูลไม่เท่ากัน ด้วยเทคนิคการเลือกข้อมูลที่ดีจะ
ทำให้สามารถเลือกข้อมูลที่มีความสำคัญและสามารถใช้เป็นตัวแทนของข้อมูลส่วนใหญ่ได้ ข้อมูลที่มีการรวมกลุ่มกันอย่างหนาแน่นจะเป็นข้อมูลที่มีความสำคัญต่อการจัดกลุ่มข้อมูลในอนาคต
คุณสมบัติของเทคนิควิธี
Cluster Analysis
1**ความต้องการทางด้านข้อมูล
สำหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ ผู้วิจัยอาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย
เช่น การวิเคราะห์ที่ได้ กล่าวมาแล้วข้องต้น ส่วนการวิเคราะห์จัดกลุ่มตัวแปร ผู้วิจัยไม่อาจจะใช้แฟ้มข้อมูลดังกล่าวได้โดยใช้เมตริกแสดงความสัมพันธ์ระหว่างตัวแปรแทนได้
2**แนวคิดพื้นฐาน
สิ่งสำคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ใช้หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สำคัญ
ๆ ผลที่ได้ก็จะไม่ดีหรือทำให้ไขว้เขวได้ ทั้งนี้เพราะตัวแปรที่เลือกไว้ตั้งแต่แรกจะเป็นสิ่งที่กำหนดคุณสมบัติของสิ่งที่ระบุความเป็นกลุ่มย่อย
เช่นในการจัดกลุ่มโรงเรียนในเมือง หากผู้วิจัยไม่เก็บข้อมูลเกี่ยวกับจำนวนนักเรียนและครู
ขนาดของโรงเรียนก็ไม่อาจเป็นเกณฑ์ในการแบ่งกลุ่มได้
3**ความคล้ายกันของหน่วย
ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษาเป็นเทคนิคของการวิเคราะห์ทางสถิติหลายวิธี
โดยทั่วไปการวัดความคล้ายจะพิจารณาจากความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
ซึ่งจะกล่าวโดยละเอียดในหัวข้อต่อไป
4**การวัดความห่าง
วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยมวัดกันมากก็คือ วิธีที่เรียกว่า
ระยะห่างเชิงยูคลิดยกกำลังสอง (Squared Euclidean distance) คือ
ผลรวมของผลต่างยกกำลังสองของทุกตัวแปร เช่น ต้องการดูความห่างกันของเบียร์
2 ยี่ห้อ ซึ่งทราบราคา