Why Data Mining?

ในปัจจุบันนี้เราอาศัยอยู่ในโลกของข้อมูลที่ถูกเก็บ และรวบรมอยู่ในชีวิตประจำวันของพวกเราทุก ๆ วัน โดยที่คุณอาจรู้หรือไม่ก็ตาม ซึ่งหากเราปล่อยข้อมูลเหล่านั้นทิ้งไว้โดยที่ไม่ทำอะไรเลย จะทำให้เสียประโยชน์ หรือแม้แต่โอกาสต่าง ๆ ไปมากมาย ซึ่งข้อมูลเหล่านั้น จำเป็นที่จะต้องนำมาวิเคราะห์ซึ่งมีความสำคัญเป็นอย่างยิ่งโดยมีคำกล่าวไว้ว่า “We are living in the information age” โดยข้อมูลและข่าวสารเป็นสิ่งที่สำคัญที่สุดในโลกยุคปัจจุบัญ แล้วถ้าเราสามารถนำมาวิเคราะได้มันจะดีเพียงใด

What is Data Mining?

มันเป็นเรื่องที่ไม่น่าแปลกใจเลยที่การทำ Data Mining เป็นสหวิทยาการอย่างแท้จริง ซึ่งมันสามารถกำหนดได้ในรูปแบบที่แตกต่างกันมากมาย ถึงแม้ว่าการทำ Data Mining ไม่ได้นำเสนอในทุกองค์ประกอบที่สำคัญเพื่อให้เห็นภาพ การหา Knowledge ในข้อมูลอะไรไม่รู้มากมาย ก็เปรียบเสมือนกับการทำเหมือง ซึ่งอาจจะเป็นเหมืองอะไรก็ได้ แต่เราจะแสดงตัวอย่างว่าคือเหมืองทอง เพื่อยืนยันในการทำเหมืองทอง จากดินหรือทราย พวกเราเพียงพูดว่า ทอง แทนคำว่าทรายหรือหิน เพราะในการหาสกัดหาทองออกมาเราจำเป็นที่จะต้องสกัดจากหินและทรายเหล่านั้น เพื่อให้ได้ทอง หากไม่มีหินหรือทรายเหล่านั้น เราก็จะไม่สามารถหาทองได้เลย และที่สำคัญหากเราไม่มีกระบวนการหรือขาดวิธีการที่ดี เราก็จะไม่สามารถสกัดทอง ออกจากหิน หรือทราย เหล่านั้นได้อย่างมีประสิทธิภาพ

Want to make it happen Or More infomation

Mining Frequent Patterns, Associations, and Correlations

frequent patterns มีมากมายหลากหลายประเภทรวมทั้ง frequent itemsets, frequent sub- sequences (also known as sequential patterns), and frequent substructures ซึ่งเซตของข้อมูลเหล่านี้มักจะเกิดขึ้นโดย transactional data เช่นการซื้อสินค้าทั่วไปจากร้านสะดวกซื้อ การหาความสัมพันธ์ที่เกิดขึ้นบ่อยครั้งในข้อมูลนั้นนำมาใช้ประโยชน์ได้หลายอย่าง เช่นข้อมูลที่ถูกวิเคราะห์ออกมาแล้วว่า เมื่อมีคนซื้อผ้าอ้อมเด็ก เขาก็จะซื้อเบียร์ไปด้วยจำนวน 60% ซึ่งข้อมูลเหล่านี้ก็สามารถนำมาส่งเสริมการขายได้มากมายหลากหลายอีกด้วย

Classification and Regression for Predictive Analysis

Classification คือกระบวนการหา model หรือ function ซึ่ง model หรือ function เหล่านั้นได้มาจากการเรียนรู้จากชุดข้อมูลใดข้อมูลหนึ่ง ยิ่งชุดข้อมูลเหล่านั้นมีจำนวนมาก และมีความถูกต้องแม่นยำสูง ความผิดพลาดของข้อมูลมีน้อย ยิ่งทำให้การระบุชุดของข้อมูลง่ายยิ่งขึ้น ยกตัวอย่างเช่น การหาความสำพันธ์ของการเป็นมะเร็งจากชุดตรวจต่าง ๆจำนวน 200 ชุด และมีผลสรุปจากผู้เชี่ยวชาญ หรือแพทย์ได้ตรวจสอบแล้วว่าเป็นมะเร็ง หรือไม่เป็นมะเร็ง จำนวน 50,000 ตัวอย่าง โดยใช้ Machine learning เรียนรู้ไปเรื่อย ๆ เพื่อให้ได้ความถูกต้องที่ต้องการ จากนั้นเมื่อได้ผลที่น่าพอใจแล้ว ก็นำโปรแกรมที่ได้ไปตรวจใช้จากตัวอย่างจริง ว่าผลที่ออกมาถูกต้องหรือไม่ ซึ่งผลที่ได้นั้นอาจจะได้ถึงขั้นข้อมูลที่ว่า ไม่จำเป็นที่จะต้องใช้ชุดตรวจชุดใดชุดหนึ่ง ในจำนวน 200 ชุดนี้ก็ได้เพราะไม่มีความสำคัญเลย เป็นการประหยัดงบประมาณ และการลดภาระของแพทย์ในการวินิฉัยโรคอีกด้วย เป็นต้น

Cluster Analysis

ไม่เหมือนกับการ classification และ regression โดยการวิเคราะห์ของกลุ่มข้อมูลโดยปราศจากการ consulting class labels ในหลาย ๆ กรณี class- labeled data อาจจะไม่อยู่ในจุดเริ่มแรก Clustering สามารถใช้เพื่อสร้าง class labels สำหรับกลุ่มของข้อมูลต่าง ๆ ให้อยู่ภายในกลุ่มข้อมูลเดียวกัน โดยอาศัยหลักการทางคณิตศาสตร์ เพื่อหาระยะห่างระว่างกลุ่มของชุดข้อมูล เพื่อทำการจัดสรรค์กลุ่มข้อมูลที่เหมาะสมที่สุด ให้อยู่กลุ่มเดียวกัน