Friday, July 17, 2015

คง ปฏิเสธไม่ได้ว่าในกิจกรรมของเราๆท่านๆ ทุกวันนี้ ล้วนแล้วแต่คลุกคลีกับ ดาต้าไมน์นิ่ง (data mining) โดยไม่รู้ตัว ไม่ว่าจะเป็นการบริโภคอาหาร การซื้อสินค้าในร้านสะดวกซื้อ การออกสินค้าโปรโมชันของห้างสรรพสินค้า โปรโมชันต่างๆ ของโทรศัพท์มือถือ รูปแบบการทำประกันชีวิต หรือแม้แต่การให้สินเชื่อต่างๆ หรือการออกบัตรเครดิตของธนาคาร ล้วนแล้วแต่ใช้สิ่งที่เรียกว่า ดาต้าไมน์นิ่ง ด้วยกันทั้งนั้น แล้วมันคืออะไรล่ะ
คำว่า ดาต้าไมน์นิ่ง (Data Mining) ในภาษาไทยนั้น เป็นที่รู้จักในหมู่เราชาวไอทีว่าคือการทำเหมืองข้อมูล สิ่งที่มาคู่กันกับ ดาต้าไมน์นิ่ง คงหลีกหนีไม่พ้นคำว่า ดาต้าแวร์เฮ้าส์ (Data Warehouse) ซึ่งก็คือโกดังเก็บข้อมูลดีๆ นี่เอง ให้ลองเปรียบคลังข้อมูลที่เรามีอยู่เป็นเหมืองขนาดใหญ่ที่มีแร่ธาตุสารพัด การทำเหมืองโดยทั่วไปเราคงอยากเจอแร่ดีๆ เช่น ทองคำ เงิน หรือ พลอย แต่ในการทำเหมืองข้อมูลสิ่งที่เราอยากได้คือองค์ความรู้ หรือรูปแบบความสัมพันธ์ที่น่าสนใจซึ่งซ่อนอยู่ภายในคลังข้อมูลขนาดใหญ่นั่น เอง เช่น พบรูปแบบการซื้อสินค้าของลูกค้าว่า ทุกครั้งที่มีการซื้อน้ำเปล่า จะมีการซื้อทิชชู ควบคู่กันเสมอ จากความสัมพันธ์ดังกล่าวทางร้านค้าอาจนำไปใช้ในการจัดทำโปรโมชันเพื่อส่ง เสริมการขายเป็นต้น
 

ทำไมต้อง Data Mining…

ในสภาวะเศรษฐกิจปัจจุบันที่มีความผันผวนและ มีการแข่งขันสูง การพยายามรักษาฐานลูกค้าเก่าและเพิ่มกลุ่มลูกค้าใหม่เป็นสิ่งที่ทุกธุรกิจ ขาดไม่ได้ กลยุทธ์ที่นิยมนำมาใช้คือการทำ CRM (Customer Relationship Management) เป็นวิธีการบริหารความสัมพันธ์ระหว่างองค์กรกับลูกค้า โดยเริ่มจากการเก็บข้อมูลประวัติลูกค้า ทั้งประวัติส่วนบุคคลและประวัติการซื้อสินค้า (transaction) จากนั้นทำการวิเคราะห์พฤติกรรมการบริโภคสินค้าของลูกค้า ทำการจัดกลุ่มและประเมินว่าลูกค้าแต่ละกลุ่มมีผลต่อกำไรมากน้อยเพียงใด พัฒนาคุณภาพสินค้าและบริการ มีการเสนอโปรโมชันสินค้าและบริการที่ตรงใจ เพื่อตอบโจทย์ของลูกค้าให้ตรงใจมากที่สุด โดยเทคนิคดาต้าไมน์นิ่งได้เข้ามามีบทบาทสำคัญสนับสนุนงานด้าน CRM โดยใช้ในการหาความสัมพันธ์การซื้อสินค้าของลูกค้า เพื่อนำไปวิเคราะห์และช่วยในงานด้านส่งเสริมการขาย ใช้ในการจำแนกลูกค้า หรือใช้ในการบอกแนวโน้มการเลิกใช้สินค้าของลูกค้าชั้นดีที่กำลังจะจากไป
ดังจะเห็นได้ว่าห้างสรรพสินค้าขนาดใหญ่ต่างๆ ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall ต่างก็ออกบัตรสมาชิก (Club Card, BigCard, i-Wish Card, …) ให้กับลูกค้าเพื่อนำไปใช้เป็นส่วนลดในการซื้อสินค้าหรือได้รับเงินคืนในภาย หลัง ข้อมูลเหล่านี้เองที่จะช่วยให้บริษัทสามารถติดตามพฤติกรรมการจับจ่ายสินค้า ของลูกค้าแต่ละคนได้ เพื่อทำความเข้าใจว่าลูกค้าแต่ละรายชอบหรือไม่ชอบสินค้าชนิดใด เดินทางมาซื้อสินค้าที่สาขาใด ณ ช่วงเวลาใด และสามารถนำเสนอโปรโมชันให้ตรงใจกับลูกค้ามากที่สุดนั่นเอง

รูปที่1 บัตรสมาชิกของห้างสรรพสินค้า เพื่อใช้ในการติดตามพฤติกรรมการบริโภคสินค้าของลูกค้า

ตัวอย่างการประยุกต์ใช้ดาต้าไมน์นิ่งในกลุ่มธุรกิจอื่น ได้แก่
bullet2กลุ่มเทเลคอมและเน็ตเวิร์ค – โปรโมชันมือถือ หรือ internet ระบบตรวจจับการบุกรุกเครือข่าย
bullet2กลุ่มประกันชีวิต – แผนประกันชีวิตแบบต่างๆ
bullet2กลุ่มโรงพยาบาล – การออกแพ็คเก็ตตรวจสุขภาพ
bullet2กลุ่มการท่องเที่ยวและโรงแรม – Recommendation system สำหรับ web marketing
bullet2กลุ่มธุรกิจการเงิน ธนาคาร – ระบบสนับสนุนการตัดสินใจในการให้สินเชื่อ ระบบตรวจจับการทุจริตทางการเงิน
bullet2กลุ่มวิทยาศาสตร์ชีวภาพ – งานวิจัยทางด้าน Bioinformatics
 

ขั้นตอนการทำเหมืองข้อมูล มีอะไรบ้าง…

หลังจากทำความรู้จักกับดาต้าไมน์นิ่งกันแล้ว หลายคนคงรู้สึกสนใจศาสตร์การทำเหมืองข้อมูลนี้ขึ้นมาทันที ในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง มีกระบวนการมาตรฐานที่เรียกว่า “Cross-Industry Standard Process for Data Mining” หรือเรียกย่อๆ ว่า “CRISP-DM” ซึ่งเกิดจากความร่วมมือระหว่าง บริษัท DaimlerChrysler บริษัท SPSS และบริษัท NCR
 
รูปที่2 กระบวนการ CRISP-DM
กระบวนการ CRISP-DM ประกอบด้วย 6 ขั้นตอน (ดังรูปที่ 2) ได้แก่

1. Business Understanding
เป็นขั้นตอนแรกสุดในกระบวนการ CRISP-DM ขั้นตอนนี้เป็นการทำความเข้าใจ ระบุปัญหาหรือโอกาสเชิงธุรกิจ จากนั้นทำการแปลงโจทย์ที่ได้ ให้อยู่ในรูปแบบที่เหมาะสมต่อการนำมาวิเคราะห์ข้อมูลทางดาต้าไมน์นิ่ง
2. Data Understanding
ข้อมูลเป็นปัจจัยที่สำคัญที่สุดที่ขาดไม่ได้ในการทำดาต้าไมน์นิ่ง ในขั้นตอนนี้เป็นการรวบรวมข้อมูลที่เกี่ยวข้อง เพื่อใช้ในการวิเคราะห์ด้วยเทคนิคดาต้าไมน์นิ่ง ในการรวบรวมข้อมูลนั้นควรพิจารณาด้วยว่าเป็นข้อมูลที่ได้มาจากแหล่งข้อมูล ที่ถูกต้องน่าเชื่อถือ ข้อมูลที่ได้มีปริมาณมากพอหรือยัง และเป็นข้อมูลที่เหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์
3. Data Preparation
ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้องหรือไม่ นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ กล่าวคือถ้าข้อมูลที่ใช้นั้นไม่ถูกต้อง มีผิดพลาด ย่อมสะท้อนถึงผลลัพธ์ที่ได้ ซึ่งอาจทำให้ตีความผลลัพธ์ได้คลาดเคลื่อนเช่นกัน โดยการเตรียมข้อมูลนั้น สามารถแบ่งออกได้เป็น 3 ขั้นตอนย่อยคือ
bullet2ทำการคัดเลือกข้อมูล (Data Selection) เราควรกำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร แล้วจึงเลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์
bullet2การกลั่นกรองข้อมูล (Data Cleaning) ในบางกรณีอาจพบข้อมูลที่ไม่ถูกต้อง อันเนื่องมาจากปัญหาในระหว่างการจัดเก็บข้อมูล เช่นการกรอกข้อมูลไม่ครบบ้าง กรอกข้อมูลซ้ำซ้อนบ้าง ในขั้นตอนนี้เราจะทำการกรองข้อมูลที่ไม่ถูกต้องหรือซ้ำซ้อนออก หรืออาจทำการซ่อมข้อมูลที่ขาดหายไปด้วยวิธีการบางอย่าง เช่นการพิจารณาจากค่าเฉลี่ยของข้อมูลส่วนใหญ่เป็นต้น
bullet2การแปลงรูปข้อมูล (Data Transformation) เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์ตามอัลกอริทึมของดาต้าไมน์นิ่งที่เลือกใช้
4. Modeling
เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง ได้แก่การสร้างตัวทำนาย (prediction model) ในบางครั้งพบว่ามีการนำเทคนิคดาต้าไมน์นิ่งหลายเทคนิคมาใช้ในการวิเคราะห์ ข้อมูล เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ดังนั้นเมื่อทำขั้นตอนนี้แล้ว อาจมีการย้อนกลับไปที่ขั้นตอน data preparation เพื่อแปลงข้อมูลบางส่วนให้เหมาะสมกับแต่ละเทคนิคด้วย นอกจากนี้ยังมีการประเมินโมเดลวิเคราะห์ข้อมูลที่ได้ ในรูปแบบความถูกต้องของโมเดล เพื่อเป็นตัวบ่งชี้ความน่าเชื่อถือของโมเดลที่ได้ สำหรับรายละเอียดเทคนิคดาต้าไมน์นิ่งแต่ละเทคนิคและวิธีการประเมินผลโมเดล จะนำเสนอในบทความถัดไปค่ะ
5. Evaluation
การประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อนหน้า นั้น เป็นเพียงการวัดความน่าเชื่อถือของโมเดลเท่านั้น ในขั้นตอนนี้เป็นการประเมินประสิทธิภาพของผลลัพธ์จากโมเดลวิเคราะห์ข้อมูล ว่าครอบคลุมและสามารถตอบโจทย์ทางธุรกิจที่ตั้งไว้ในขั้นตอนแรกหรือไม่ ในกรณีที่มีการสร้างโมเดลวิเคราะห์ข้อมูลหลายโมเดล ในขั้นตอนนี้จะทำการประเมินแต่ละโมเดลด้วยว่ามีส่วนดีส่วนด้อยอย่างไร และควรเลือกใช้โมเดลใด การทำงานในส่วนนี้ต้องอาศัยทักษะในการวิเคราะห์ข้อมูลและธุรกิจ เพื่อช่วยให้การวิเคราะห์ทำได้สะดวกและรวดเร็วขึ้น จึงมีการใช้เครื่องมือทางด้านกราฟฟิก เช่นการแสดงผลการวิเคราะห์ด้วยกราฟ รายงานรูปแบบต่างๆ หรือ Dashboard เป็นต้น
6. Deployment
ผลลัพทธ์หรือองค์ความรู้ที่ได้จากการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์ นิ่งจะไม่มีประโยชน์เลย ถ้าไม่ถูกนำไปใช้งานจริง ตัวอย่างเช่น การนำองค์ความรู้ที่ได้ไปใช้ในการจัดโปรโมชันส่งเสริมการขายสินค้า ใช้ในการทำนายแนวโน้มการทุจริตในระบบการเงินของธนาคาร หรือตรวจจับความผิดปกติในการซื้อขายหุ้นในตลาดหลักทรัพย์เป็นต้น
 

แหล่งข้อมูลอ้างอิง

bullet2หนังสือ CRISP-DM 1.0 Step-by-step data mining guide – Pete Chapman et al.
bullet2เอกสาร คำสอนวิชา 214554 คลังข้อมูลและการทำเหมืองข้อมูล Data Warehouse and Data Mining – ผศ.ดร. กฤษณะ ไวยมัย ภาควิชาคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
Categories:

1 comment:

  1. Many thanks for your kind invitation. I’ll join you.
    Would you like to play cards?
    Come to the party with me, please.
    See you soon...

    คาสิโน

    เครดิตฟรี

    เล่นบาคาร่า

    คาสิโนออนไลน์

    ReplyDelete

Subscribe to RSS Feed Follow me on Twitter!