คง
ปฏิเสธไม่ได้ว่าในกิจกรรมของเราๆท่านๆ ทุกวันนี้ ล้วนแล้วแต่คลุกคลีกับ
ดาต้าไมน์นิ่ง (data mining) โดยไม่รู้ตัว ไม่ว่าจะเป็นการบริโภคอาหาร
การซื้อสินค้าในร้านสะดวกซื้อ การออกสินค้าโปรโมชันของห้างสรรพสินค้า
โปรโมชันต่างๆ ของโทรศัพท์มือถือ รูปแบบการทำประกันชีวิต
หรือแม้แต่การให้สินเชื่อต่างๆ หรือการออกบัตรเครดิตของธนาคาร
ล้วนแล้วแต่ใช้สิ่งที่เรียกว่า ดาต้าไมน์นิ่ง ด้วยกันทั้งนั้น
แล้วมันคืออะไรล่ะ
|
คำว่า ดาต้าไมน์นิ่ง (Data Mining) ในภาษาไทยนั้น เป็นที่รู้จักในหมู่เราชาวไอทีว่าคือการทำเหมืองข้อมูล
สิ่งที่มาคู่กันกับ ดาต้าไมน์นิ่ง คงหลีกหนีไม่พ้นคำว่า ดาต้าแวร์เฮ้าส์
(Data Warehouse) ซึ่งก็คือโกดังเก็บข้อมูลดีๆ นี่เอง
ให้ลองเปรียบคลังข้อมูลที่เรามีอยู่เป็นเหมืองขนาดใหญ่ที่มีแร่ธาตุสารพัด
การทำเหมืองโดยทั่วไปเราคงอยากเจอแร่ดีๆ เช่น ทองคำ เงิน หรือ พลอย
แต่ในการทำเหมืองข้อมูลสิ่งที่เราอยากได้คือองค์ความรู้
หรือรูปแบบความสัมพันธ์ที่น่าสนใจซึ่งซ่อนอยู่ภายในคลังข้อมูลขนาดใหญ่นั่น
เอง เช่น พบรูปแบบการซื้อสินค้าของลูกค้าว่า ทุกครั้งที่มีการซื้อน้ำเปล่า
จะมีการซื้อทิชชู ควบคู่กันเสมอ
จากความสัมพันธ์ดังกล่าวทางร้านค้าอาจนำไปใช้ในการจัดทำโปรโมชันเพื่อส่ง
เสริมการขายเป็นต้น
|
ทำไมต้อง Data Mining… |
ในสภาวะเศรษฐกิจปัจจุบันที่มีความผันผวนและ มีการแข่งขันสูง การพยายามรักษาฐานลูกค้าเก่าและเพิ่มกลุ่มลูกค้าใหม่เป็นสิ่งที่ทุกธุรกิจ ขาดไม่ได้ กลยุทธ์ที่นิยมนำมาใช้คือการทำ CRM (Customer Relationship Management) เป็นวิธีการบริหารความสัมพันธ์ระหว่างองค์กรกับลูกค้า โดยเริ่มจากการเก็บข้อมูลประวัติลูกค้า ทั้งประวัติส่วนบุคคลและประวัติการซื้อสินค้า (transaction) จากนั้นทำการวิเคราะห์พฤติกรรมการบริโภคสินค้าของลูกค้า ทำการจัดกลุ่มและประเมินว่าลูกค้าแต่ละกลุ่มมีผลต่อกำไรมากน้อยเพียงใด พัฒนาคุณภาพสินค้าและบริการ มีการเสนอโปรโมชันสินค้าและบริการที่ตรงใจ เพื่อตอบโจทย์ของลูกค้าให้ตรงใจมากที่สุด โดยเทคนิคดาต้าไมน์นิ่งได้เข้ามามีบทบาทสำคัญสนับสนุนงานด้าน CRM โดยใช้ในการหาความสัมพันธ์การซื้อสินค้าของลูกค้า เพื่อนำไปวิเคราะห์และช่วยในงานด้านส่งเสริมการขาย ใช้ในการจำแนกลูกค้า หรือใช้ในการบอกแนวโน้มการเลิกใช้สินค้าของลูกค้าชั้นดีที่กำลังจะจากไป |
ดังจะเห็นได้ว่าห้างสรรพสินค้าขนาดใหญ่ต่างๆ ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall ต่างก็ออกบัตรสมาชิก (Club Card, BigCard, i-Wish Card, …) ให้กับลูกค้าเพื่อนำไปใช้เป็นส่วนลดในการซื้อสินค้าหรือได้รับเงินคืนในภาย หลัง ข้อมูลเหล่านี้เองที่จะช่วยให้บริษัทสามารถติดตามพฤติกรรมการจับจ่ายสินค้า ของลูกค้าแต่ละคนได้ เพื่อทำความเข้าใจว่าลูกค้าแต่ละรายชอบหรือไม่ชอบสินค้าชนิดใด เดินทางมาซื้อสินค้าที่สาขาใด ณ ช่วงเวลาใด และสามารถนำเสนอโปรโมชันให้ตรงใจกับลูกค้ามากที่สุดนั่นเอง |
|
ตัวอย่างการประยุกต์ใช้ดาต้าไมน์นิ่งในกลุ่มธุรกิจอื่น ได้แก่
กลุ่มเทเลคอมและเน็ตเวิร์ค – โปรโมชันมือถือ หรือ internet ระบบตรวจจับการบุกรุกเครือข่าย
กลุ่มประกันชีวิต – แผนประกันชีวิตแบบต่างๆ กลุ่มโรงพยาบาล – การออกแพ็คเก็ตตรวจสุขภาพ กลุ่มการท่องเที่ยวและโรงแรม – Recommendation system สำหรับ web marketing กลุ่มธุรกิจการเงิน ธนาคาร – ระบบสนับสนุนการตัดสินใจในการให้สินเชื่อ ระบบตรวจจับการทุจริตทางการเงิน กลุ่มวิทยาศาสตร์ชีวภาพ – งานวิจัยทางด้าน Bioinformatics |
ขั้นตอนการทำเหมืองข้อมูล มีอะไรบ้าง… |
หลังจากทำความรู้จักกับดาต้าไมน์นิ่งกันแล้ว
หลายคนคงรู้สึกสนใจศาสตร์การทำเหมืองข้อมูลนี้ขึ้นมาทันที
ในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
มีกระบวนการมาตรฐานที่เรียกว่า “Cross-Industry Standard Process for Data
Mining” หรือเรียกย่อๆ ว่า “CRISP-DM” ซึ่งเกิดจากความร่วมมือระหว่าง
บริษัท DaimlerChrysler บริษัท SPSS และบริษัท NCR
|
|
กระบวนการ CRISP-DM ประกอบด้วย 6 ขั้นตอน (ดังรูปที่ 2) ได้แก่
1. Business Understanding เป็นขั้นตอนแรกสุดในกระบวนการ CRISP-DM ขั้นตอนนี้เป็นการทำความเข้าใจ ระบุปัญหาหรือโอกาสเชิงธุรกิจ จากนั้นทำการแปลงโจทย์ที่ได้ ให้อยู่ในรูปแบบที่เหมาะสมต่อการนำมาวิเคราะห์ข้อมูลทางดาต้าไมน์นิ่ง 2. Data Understanding ข้อมูลเป็นปัจจัยที่สำคัญที่สุดที่ขาดไม่ได้ในการทำดาต้าไมน์นิ่ง ในขั้นตอนนี้เป็นการรวบรวมข้อมูลที่เกี่ยวข้อง เพื่อใช้ในการวิเคราะห์ด้วยเทคนิคดาต้าไมน์นิ่ง ในการรวบรวมข้อมูลนั้นควรพิจารณาด้วยว่าเป็นข้อมูลที่ได้มาจากแหล่งข้อมูล ที่ถูกต้องน่าเชื่อถือ ข้อมูลที่ได้มีปริมาณมากพอหรือยัง และเป็นข้อมูลที่เหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์ 3. Data Preparation ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้องหรือไม่ นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ กล่าวคือถ้าข้อมูลที่ใช้นั้นไม่ถูกต้อง มีผิดพลาด ย่อมสะท้อนถึงผลลัพธ์ที่ได้ ซึ่งอาจทำให้ตีความผลลัพธ์ได้คลาดเคลื่อนเช่นกัน โดยการเตรียมข้อมูลนั้น สามารถแบ่งออกได้เป็น 3 ขั้นตอนย่อยคือ
ทำการคัดเลือกข้อมูล (Data Selection) เราควรกำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร แล้วจึงเลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์
การกลั่นกรองข้อมูล (Data Cleaning)
ในบางกรณีอาจพบข้อมูลที่ไม่ถูกต้อง
อันเนื่องมาจากปัญหาในระหว่างการจัดเก็บข้อมูล เช่นการกรอกข้อมูลไม่ครบบ้าง
กรอกข้อมูลซ้ำซ้อนบ้าง
ในขั้นตอนนี้เราจะทำการกรองข้อมูลที่ไม่ถูกต้องหรือซ้ำซ้อนออก
หรืออาจทำการซ่อมข้อมูลที่ขาดหายไปด้วยวิธีการบางอย่าง
เช่นการพิจารณาจากค่าเฉลี่ยของข้อมูลส่วนใหญ่เป็นต้น
การแปลงรูปข้อมูล (Data Transformation) เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์ตามอัลกอริทึมของดาต้าไมน์นิ่งที่เลือกใช้
4. Modelingเป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง ได้แก่การสร้างตัวทำนาย (prediction model) ในบางครั้งพบว่ามีการนำเทคนิคดาต้าไมน์นิ่งหลายเทคนิคมาใช้ในการวิเคราะห์ ข้อมูล เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ดังนั้นเมื่อทำขั้นตอนนี้แล้ว อาจมีการย้อนกลับไปที่ขั้นตอน data preparation เพื่อแปลงข้อมูลบางส่วนให้เหมาะสมกับแต่ละเทคนิคด้วย นอกจากนี้ยังมีการประเมินโมเดลวิเคราะห์ข้อมูลที่ได้ ในรูปแบบความถูกต้องของโมเดล เพื่อเป็นตัวบ่งชี้ความน่าเชื่อถือของโมเดลที่ได้ สำหรับรายละเอียดเทคนิคดาต้าไมน์นิ่งแต่ละเทคนิคและวิธีการประเมินผลโมเดล จะนำเสนอในบทความถัดไปค่ะ 5. Evaluation การประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อนหน้า นั้น เป็นเพียงการวัดความน่าเชื่อถือของโมเดลเท่านั้น ในขั้นตอนนี้เป็นการประเมินประสิทธิภาพของผลลัพธ์จากโมเดลวิเคราะห์ข้อมูล ว่าครอบคลุมและสามารถตอบโจทย์ทางธุรกิจที่ตั้งไว้ในขั้นตอนแรกหรือไม่ ในกรณีที่มีการสร้างโมเดลวิเคราะห์ข้อมูลหลายโมเดล ในขั้นตอนนี้จะทำการประเมินแต่ละโมเดลด้วยว่ามีส่วนดีส่วนด้อยอย่างไร และควรเลือกใช้โมเดลใด การทำงานในส่วนนี้ต้องอาศัยทักษะในการวิเคราะห์ข้อมูลและธุรกิจ เพื่อช่วยให้การวิเคราะห์ทำได้สะดวกและรวดเร็วขึ้น จึงมีการใช้เครื่องมือทางด้านกราฟฟิก เช่นการแสดงผลการวิเคราะห์ด้วยกราฟ รายงานรูปแบบต่างๆ หรือ Dashboard เป็นต้น 6. Deployment ผลลัพทธ์หรือองค์ความรู้ที่ได้จากการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์ นิ่งจะไม่มีประโยชน์เลย ถ้าไม่ถูกนำไปใช้งานจริง ตัวอย่างเช่น การนำองค์ความรู้ที่ได้ไปใช้ในการจัดโปรโมชันส่งเสริมการขายสินค้า ใช้ในการทำนายแนวโน้มการทุจริตในระบบการเงินของธนาคาร หรือตรวจจับความผิดปกติในการซื้อขายหุ้นในตลาดหลักทรัพย์เป็นต้น |
แหล่งข้อมูลอ้างอิง |
หนังสือ CRISP-DM 1.0 Step-by-step data mining guide – Pete Chapman et al.
เอกสาร
คำสอนวิชา 214554 คลังข้อมูลและการทำเหมืองข้อมูล Data Warehouse and Data
Mining – ผศ.ดร. กฤษณะ ไวยมัย ภาควิชาคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
|
Friday, July 17, 2015
9:20 AM
1 comment
Categories: Data Mining
Subscribe to:
Post Comments (Atom)
Many thanks for your kind invitation. I’ll join you.
ReplyDeleteWould you like to play cards?
Come to the party with me, please.
See you soon...
คาสิโน
เครดิตฟรี
เล่นบาคาร่า
คาสิโนออนไลน์