วันพุธที่ 29 ตุลาคม พ.ศ. 2551

Data Warehouse & Data Mining

Data Warehouse เป็นลักษณะของการแยกฐานข้อมูลที่ต้องการใช้งานในลักษณะระบบ
ช่วยเหลือการตัดสินใจออกจากฐานข้อมูลที่ใช้งานประจำวัน ทั้งนี้ Data Warehouse อาจได้จาก
ฐานข้อมูลประจำวันหรือแหล่งข้อมูลภายนอก แต่ถูกกำหนดให้เป็นฐานข้อมูลใหม่ ในลักษณะของ
ฐานข้อมูลสารสนเทศ เพื่อนำข้อมูลมาใช้วิเคราะห์ประกอบการตัดสินใจทางธุรกิจ ทั้งนี้รูปแบบการ
จัดเก็บข้อมูลใน Data Warehouse จะเก็บในลักษณะตาราง หรือตารางหลายมิต




Data Warehouse หรือ Data Webhouse หรือเรียกสั้นๆ ว่า webhouse เป็นผลสะท้อน
จากการใช้เว็บและจากโครงสร้างของ Data Warehouse เอง เนื่องจากในเว็บจะนำเสนอ
แหล่งข้อมูลที่หลากหลาย ซึ่งส่วนใหญ่เกี่ยวข้องกับพฤติกรรมของลูกค้า ทั้งนี้ในการออกแบบเว็บ
จะคำนึงถึงพฤติกรรมของลูกค้าเป็นสำคัญ และยังมีความต้องการที่จะสร้างพื้นที่หรือห้องเพื่อใช้ใน
การเข้าถึงหรือติดต่อกันสำหรับเว็บไซต์ระหว่างพนักงาน และลูกค้า ไม่ว่าจะอยู่ที่ใดในโลก
การวิเคราะห์พฤติกรรมลูกค้าจะนำไปสู่ Data mining ซึ่งจะช่วยนำเสนอการวิเคราะห์ที่
ซับซ้อน เพื่อค้นหารูปแบบสำหรับข้อมูลพฤติกรรมของลูกค้า อาทิ เช่น
􀂃 ทำนายถึงลักษณะของลูกค้าแต่ละรายว่าจะเป็นลูกค้าชั้นดีหรือไม่
􀂃 แสดงให้เห็นถึงความสนใจในผลิตภัณฑ์ของลูกค้า
􀂃 ปรับปรุงเว็บไซต์ โดยจะพิจารณาจากข้อมูลพฤติกรรมของลูกค้า
􀂃 web page แบบใดที่น่าสนใจสำหรับผู้เยี่ยมชม
Data warehouse และ Data mining มีอยู่รวมกันอยู่หลายรูปแบบ โดยที่ Data mining
จะใช้ Data Warehouse เป็นแหล่งข้อมูลโดยตรงในการวิเคราะห์ข้อมูล และบางครั้ง webhouse
มีการจัดเก็บข้อมูลงานประจำวันและข้อมูลพฤติกรรมในลักษณะหลายมิติ
ทีมผู้จัดทำ webhouse ได้กำหนด webhouse ให้เป็นแหล่งข้อมูลเพื่อจัดทำรายงาน การ
วิเคราะห์ การประมาณการ การให้คะแนน โดยใช้ข้อมูลจากภายในและภายนอก ตลอดจนทำการ
แปลงข้อมูลตามกฎเกณฑ์ทางธุรกิจ โดยที่ webhouse จะทำหน้าที่รวบรวม, จัดเก็บ และนำเสนอ
ข้อมูลในรูปแบบที่เหมาะสม ส่วน Data mining นั้นถูกนำมาใช้ทางด้านการวิเคราะห์ข้อมูล
มากกว่าที่จะถูกใช้เป็นฐานข้อมูล โดยต้องการใช้ข้อมูลของ webhouse มาทำการวิเคราะห์เป็น
ส่วนใหญ่


ที่มา:tulip.bu.ac.th/~panida.t/DataWebhouse.pdf

ระบบจัดการชนิดสินค้า ช่วยให้ธุรกิจค้าปลีกเข้าใจพฤติกรรม การใช้จ่ายของลูกค้ามาก ชึ้นและทราบว่าลูกค้ามีปฎิกริยากับโปรโมรชั่นของตนอย่างไร

  • ระบบวิเคราะห์การ 'Claim' หรือการอ้างสิทธิของธุรกิจสุขภาพ ช่วยให้บริษัทควบคุมค่าใช้จ่าย ลูกค้าได้ดีขึ้น
  • ระบบควบคุมการทุจริตและควบคุมค่าใช้จ่ายของธุรกิจประกันสุขภาพ
  • ระบบ Supplier Management หรือระบบจัดการ Supplier ช่วยให้องค์กรเหล่านั้นสามารถประเมินคาดการณ์ และวางแผนสำหรับอนาคตได้ดีกว่า
  • ระบบการเงินซึ่งมีองค์กรทั้งหลายนำไปใช้อย่างกว้างขวาง ทำให้องค์กรเหล่านี้ สามารถประเมินคาดการณ์ และวางแผนสำหรับอนาคตได้ดีกว่า
  • ระบบจัดการค่าใช้บริการ ซึ่งบริษัทโทรคมนาคมนำไปใช้ ทำให้บริษัทเหล่านั้นสามารถ กำหนดอัตราค่าบริการ ที่ทำกำไรได้สูงสุด ในขณะเดียวกันก็เป็นอัตราที่จูงใจลูกค้ามากที่สุดด้วย ไม่ว่าจะเป็นค่าบริการโทรศัพท์เคลื่อนที่โทรศัพท์ ทางไกลหรือโทรศัพท์บ้านก็ตาม
  • ระบบประวัติลูกค้า ระบบทำนายความต้องการและระบบการตลาดขนาดจุลภาค ที่มีใช้ในบริษัทบริการสื่อสาร
  • ระบบจัดเก็บค่าบริการ ระบบจัดการเครดิต และระบบการตลาดขนาดจุลภาคที่มีใช้ในสถาบันการเงิน
  • ระบบจัดการทรัพย์สินที่ปรับปรุงใหม่และระบบควบคุมค่าใช้จ่าย ในอุตสาหกรรมน้ำมันและก๊าซ

หนึ่งในระบบ Data Warehouse ที่ประสบความสำเร็จมากเป็นระบบที่นำมาประยุกต์ใช้กับ ธุรกิจค้าปลีก เพราะระบบ Data Warehouse ทำให้เจ้าของสามารถสร้างระบบรายงานที่ดึง เฉพาะข้อมูลที่ต้องการ ออกมาจากเครื่องเก็บเงินได้ (Point-of-Sales) และนำข้อมูลนั้นมาสร้าง และทดสอบโปรโมชั่นต่าง ๆ ช่วยในการดูพฤติกรรมการซื้อ (เช่น ของบางอย่างลูกค้ามักจะซื้อคู่กัน เช่น เสื้อเชิ้ตกับเนคไทหรือรองเท้ากับกระเป๋าถือ ) หรือสร้างบริการและ ผลิตภัณฑ์ใหม่ ๆ


DATA MINING คืออะไร

Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทำรายงาน และโปรแกรมในการจัดการ ซึ่งเราคุ้นเคยดีกับคำว่า Executive Information System ( EIS ) หรือระบบข้อมูลสำหรับการตัดสินใจในการบริหาร ซึ่งเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพิ่มคุณค่าให้กับฐานข้อมูลที่มีอยู่
ระบบสนับสนุนการตัดสินใจ ( Decision Support System) คือทำอย่างไรให้ข้อมูลที่เรามีอยู่กลายเป็นความรู้อันมีค่าได้สร้างคำตอบของอนาคตได้

ทำไมจึงต้องมี Data Mining

1.ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศไปใช้
การสกัดสารสนเทศ หมายถึง การคัดเลือกข้อมูลออกมาใช้งานในส่วนที่เราต้องการ
2.ในอดีตเราใช้คนเป็นผู้สืบค้นข้อมูลต่าง ๆ ในฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตามภูมิปัญญาของผู้สืบค้น
3.ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงานภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse)
ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด


ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม

· จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ
· ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้
· ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
· การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว

ประเภทข้อมูลที่สามารถทำ Data Mining

· Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) model
· Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกัน
· Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น
· Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ web

ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining

· ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล
· ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น
· ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม
· ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง