คำว่า “บิ๊ก” หรือใหญ่ในที่นี้ ไม่ใช่แค่ ข้อมูลที่มีขนาดใหญ่ หรือมีจำนวนมากๆ แต่หมายรวมถึง ข้อมูลที่มีความหลากหลายสูง เช่น ประกอบด้วยข้อมูลหลายประเภท รวมถึงข้อมูลที่เปลี่ยนแปลงรวดเร็วมากก็ได้ ซึ่งการจัดการข้อมูลลักษณะนี้ต้องการระบบที่อัจฉริยะมากๆ
เป็นที่รู้กันอยู่แล้วว่า “ข้อมูล” คือหัวใจขององค์กรในอุตสาหกรรมหรือธุรกิจทุกรูปแบบ การวิเคราะห์ข้อมูลทำให้องค์กรสามารถทำงานแบบ “ว่องไว” คือทันเหตุการณ์ ปรับตัวเปลี่ยนแปลงได้ทันกับสิ่งที่กำลังจะเกิดขึ้น ซึ่งเป็นสิ่งที่บอกความสำเร็จหรือล้มเหลวขององค์กรได้ล่วงหน้าเลยก็ว่าได้
เมื่อหลักการเหล่านี้ดูดี ในทางปฏิบัติจริงเอง ก็มีการสำรวจจากหน่วยงานต่างๆ สนับสนุนหลักการความเชื่อเรื่อง “บิ๊กเดต้า” นี้เหมือนกัน คือ ร้อยละ 75 ของผู้บริหารเชื่อว่า การวิเคราะห์ข้อมูลในอดีตช่วยสร้างการเติบโตขององค์กรได้ (อีก 25 อาจจะเป็นบริษัทที่ข้อมูลในอดีตไม่มี หรือ ใช้ไม่ได้?)
นอกจากนั้นก็ยังมีงานวิจัยอื่นๆ เช่น บริษัทที่ไม่ได้สนใจนำข้อมูลในอดีตมาใช้บริหารความเสี่ยงนั้น เกือบครึ่งนึงพบกับปัญหาด้านความไม่มั่นคงด้านต่างๆ ในองค์กร แม้ว่าจะมีการบริหารตามแผนที่วางไว้ หรือ 1 ใน 5 ของบริษัทที่มีผลประกอบการดีนั้น ลงทุนด้านไอทีไปกว่า ครึ่งหนึ่งของงบประมาณ
จากงานวิจัยหรือการสำรวจต่างๆ นี้บอกอะไรเราได้บ้าง แน่นอน ย่อมกลับไปสนับสนุนว่า ปัจจุบันการลงทุนนำเทคโนโลยีมาช่วยวิเคราะห์ข้อมูลในอดีตนั้นเป็นเครื่องมือในการบริหารที่ธุรกิจต่างต้องหันมามองมากขึ้น
แล้วเดต้า ที่จะเป็นบิ๊กเดต้า หรือ ข้อมูลขนาดใหญ่ นั้นมีอะไรได้บ้าง แบ่งคร่าวๆ ออกเป็น 6 ประเภท
ประเภทที่ 1 คือข้อมูลประเภท ทรานแซกชัน หรือ แอปพลิเคชัน ที่ประมวลผลของธุรกรรมในองค์กรที่เกิดขึ้นทุกวัน เช่นข้อมูลที่ลูกค้า กรอกเข้ามาซื้อขายสินค้า จองบริการ ฯลฯ
ประเภทที่ 2 คือข้อมูลที่ได้จากเครื่องจักรหรือตัวระบบตรวจจับสัญญาณของเรา เช่น ข้อมูลวัดระดับน้ำ, ข้อมูลอุณหภูมิ, หรือข้อมูลจากสายพานการผลิตต่าง ๆ ที่บันทึกไว้แต่ละเวลา
ประเภทที่ 3 คือข้อมูลรูปภาพและเสียง ที่บันทึก หรืออัดไว้จากการทำงานในองค์กร เช่นข้อมูลแจ้งการใช้งานผู้ใช้จากระบบสอบถามข้อมูลทางโทรศัพท์, ข้อมูลสำรวจหรือภาพจากกล้องที่ติดไว้ตามตำแหน่งต่างๆ
ประเภทที่ 4 คือข้อมูลประเภทถัดมาก็ข้อมูลการบริหารขององค์กรเอง เช่นข้อมูล เวลาเข้าทำงาน, ข้อมูลเงินเดือน, ข้อมูลการลาหยุด เป็นต้น
ประเภทที่ 5 คือข้อมูลจากสังคมเครือข่าย social network ซึ่งองค์กรใช้งานในการประชาสัมพันธ์, ทำการตลาด, ติดต่อสื่อสารภายใน หรือ ระหว่างองค์กรกับลูกค้า
ประเภทที่ 6 คือข้อมูลจากแหล่งอื่น ที่เกี่ยวข้องกัน เช่น ข้อมูลจากรัฐ, ข้อมูลจากหน่วยงานอื่นๆ ที่มีส่วนเกี่ยวข้องกับธุรกิจของเรา เป็นต้น
ไม่ว่าธุรกิจหรือหน่วยงานใดก็ตามย่อมมีข้อมูลอยู่ในหกอย่างนี้ และการที่นำข้อมูลหกอย่างนี้ในอดีตมาใช้มากเพียงพอ ย่อมทำให้สังเกต ตั้งสมมติฐาน รวมถึงนำไปสร้างเครื่องมือบางอย่าง และลงมือทดลองเพื่อให้ได้คำตอบของคำถามที่ธุรกิจของเราสนใจได้ไม่มากก็น้อย
ตัวอย่างเช่น เราอยากรู้เรื่องง่ายๆ ภายในองค์กรว่า สาเหตุของระบบเครือข่ายล่มนั้นเกิดจากอะไร เราสามารถนำไฟล์ที่บันทึกการใช้งานเครือข่ายมาทำการวิเคราะห์ หาเวลาที่มีผู้ใช้ สูงสุด ต่ำสุดในช่วงสองสามปีที่เริ่มมีปัญหาดังกล่าว อาจจะทำให้มองเห็นพฤติกรรมการใช้งานซึ่ง “อาจจะ” เกี่ยวพันกับสาเหตุของปัญหาเครือข่ายล่มดังกล่าว
ในแง่ของการขายอาจจะใช้ข้อมูลการซื้อสินค้าย้อนหลังมาหาความสัมพันธ์เชิงสถิติกับปัจจัยต่างๆ เช่น ช่วงเวลา อุณหภูมิ พื้นที่ ทำให้เราสามารถทดลอง วางแผนการกระจายสินค้าขึ้นกับช่วงเวลา ฤดู หรือ พื้นที่ต่างๆ อย่างเหมาะสมมากขึ้น
หรือการใช้ข้อมูลการค้นคำที่คนสนใจนั้นอาจจะมีความสัมพันธ์ กับ ความสนใจ หรือเหตุการณ์ที่เกิดขึ้นของผู้บริโภคที่เล่นอินเทอร์เน็ต เช่น ช่วงนี้ คนสนใจดาราคนไหน จึงควรจ้างไปเป็นพรีเซนเตอร์ให้กับองค์กร เป็นต้น
การวิเคราะห์ดังกล่าวเห็นได้ว่าทำได้หลายรูปแบบกับข้อมูลทั้ง 6 อย่าง โดยมากสิ่งที่วิเคราะห์กัน ก็แบ่งได้อีกเป็นหลายรูปแบบ รูปแบบที่เห็นกันบ่อยคือการวิเคราะห์แบบเรียลไทม์หรือ ณ เวลานั้นเลย เช่น ข้อมูลของหุ้นต้องการบอกว่าหุ้นต่อไปจะขึ้นหรือลง เป็นต้น เพื่อทำนายสิ่งที่กำลังจะเกิด
แบบที่สองคล้ายกับที่ยกตัวอย่างไปก่อนหน้าคือการวิเคราะห์ว่า ข้อมูลนั้นมีความสัมพันธ์กับ ข้อมูลอื่นอย่างไร โดยใช้หลักการทางสถิติ เพื่อพยายามหาสิ่งที่น่าจะเกี่ยวข้องกัน อาจจะทำให้เข้าใจหรือหา เหตุ หรือ ผลได้ ต่อไป
ส่วนแบบที่สามคือวิเคราะห์ข้อมูลหน้างานตามปกติ ตามเป้าหมายที่บริษัทตั้งไว้เพื่อออกรายงาน ยอดขายรวม สูงสุด ต่ำสุด เป็นต้น และแบบที่พบเห็นได้น้อยแต่มีประโยชน์มากคือการวิเคราะห์เชิงลึกหาโมเดลคณิตศาสตร์ รูปแบบที่ใช้อธิบายหรือแทนพฤติกรรมการเปลี่ยนแปลงของข้อมูลที่ผ่านมาเพื่อนำไปใช้งานต่อเช่นการจำลองสถานการณ์ หรือ การทดลองเปลี่ยนแปลงบางอย่างว่าข้อมูลนั้นจะเป็นอย่างไร เช่นในโลกของธุรกิจการเงิน การธนาคารเป็นต้น
โดยบุคคลที่ทำหน้าที่วิเคราะห์ข้อมูลขนาดใหญ่พวกนี้จะเรียกว่า นักวิทยาศาสตร์ข้อมูล หรือ เดต้าไซแอนทิส มีหน้าที่ เข้าไปสำรวจข้อมูลก่อน ตั้งแต่สังเกตด้วยตา สร้างกราฟ หรือนำไปสร้างเป็นแผนภูมิ รูปภาพต่างๆ รวมไปถึงการ “ทำความสะอาด” ข้อมูลก่อนหน้า เช่นมีข้อมูลที่ไม่ถูกต้อง ไม่สอดคล้องกัน เข้ามาปน
หลังจากนั้นก็ตั้งคำถามที่น่าสนใจ หรือ รับคำถามจากหน่วยงานที่ทำการวิเคราะห์ให้ นำมาตั้งสมมติฐานต่างๆ แล้วทำการทดลองทำ ลองวิเคราะห์จากข้อมูลที่มีอยู่ว่า มีความสัมพันธ์กันอย่างนั้นหรือไม่ หรือ เติบโต หรือถดถอยตามรูปแบบนั้นหรือไม่
ท้ายสุดคือการนำผลที่ได้ ไปให้กับ หน่วยงานหรือธุรกิจนำไปต่อยอดให้เกิดประโยชน์ต่อไป
แม้ว่า “บิ๊กเดต้า” ดูเหมือนจะเป็นเครื่องมืออันทรงพลัง แต่อย่างไรก็ตามการวิเคราะห์พื้นฐานของมันก็ยังคงใกล้เคียงกับการใช้หลักสถิติ เพื่อหาความสัมพันธ์บางอย่างมาอ้างอิง ซึ่งมันอาจจะใช่หรือไม่ใช่เหตุผลก็ได้ อย่างที่ระบุในหนังสืออย่าง How to Lie with Statistics เขียนโดย Darrell Huff ซึ่งหลายท่านอาจจะเคยอ่านมาแล้ว
คำตอบของการวิเคราะห์อาจจะทำให้สิ่งที่ไม่น่าจะเกี่ยวกัน มีความสัมพันธ์กันขึ้นมา หรือ คำตอบที่ได้เกิดจากข้อมูลที่ คนให้ข้อมูลนั้นตั้งใจบิดเบือนเอง (เช่นเกี่ยวกับรสนิยมหรือการเปิดเผยที่ทำให้คนต้องยอมรับตัวเองว่าดูแย่) หรือเราอาจจะลืมไปว่าข้อมูลที่เราวิเคราะห์ไม่ใช่ของคนทั้งหมด เช่น ข้อมูลจากการใช้โซเชียลมีเดียเท่านั้นไม่ใช่คนทั้งหมด หรือท้ายสุดคือ โดยตัวเลขหรือค่าที่วิเคราะห์ได้นั้น หลอกเอาว่ามันมาก หรือมันน้อยเพราะผลการวิเคราะห์นั้นต้องมีการตีความที่ดีก่อนนำไปใช้งาน
อ่านถึงตรงนี้แล้ว มีใครจะย้อนกลับไปคิดต่อไหมครับ ว่าประโยคที่ผมบอกไว้ตอนต้นว่า 75 เปอร์เซ็นต์ของผู้นำในองค์กรขนาดใหญ่คิดว่าการใช้บิ๊กเดต้านั้นทำให้บริษัทมีผลการดำเนินงานสูงขึ้นนั้น มันตีความได้ยังไงบ้างครับ.....
แฮปปี้บิ๊กเดต้าครับ
เรื่อง : ดร.พิษณุ คนองชัยยศ
ผู้ช่วยศาสตราจารย์ ภาควิชาวิศวกรรมคอมพิวเตอร์
คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
-----------------------
นิตยสารMBA ฉบับที่ 184 Jan - Feb 2015