การใช้ฟังก์ชัน 'Describe' ในการสำรวจข้อมูล และ การเลือกข้อมูลที่จำเป็นไปในการวิเคราะห์ Part I
Use ‘Describe’ to Explore And Bring in Only Needed Data! Part I
ในการวิเคราะห์ข้อมูลทุกครั้ง สิ่งที่ต้องทำเป็นอันดับแรกๆ โดยหลีกเลี่ยงไม่ได้เลย นั่นก็คือ
การสำรวจข้อมูล (Explore Data)
เพื่อให้ผู้ที่จัดทำข้อมูลสามารถมองเห็นภาพรวมคร่าวๆ ของข้อมูลในเบื้องต้นได้ ก่อนที่จะจัดการและทำการวิเคราะห์ข้อมูล
สำหรับการสำรวจข้อมูลผ่านโปรแกรม Tableau นั้น เราสามารถทำได้จากการ Drag and Drop field (Dimension, Measure) ข้อมูลต่างๆ ผ่านทางหน้า worksheet ได้ ดังรูปด้านล่าง
ประเภทชนิดข้อมูลตาม Field ต่างๆ ก็สามารถดูจาก Icon ที่อยู่หน้าชื่อ Field นั้นๆ ดังรูปด้านล่าง
ตรงส่วนนี้ หากเกิดกรณี ที่เราต้องการเปลี่ยนชนิดของข้อมูลให้เหมาะสมหรือถูกต้องตามโจทย์การวิเคราะห์ข้อมูล เราสามารถปรับเปลี่ยนชนิดข้อมูลได้ ซึ่งมี 2 วิธี
- Click ขวาที่ Field นั้น เลือก Change Data Type แล้วเลือกประเภทชนิดข้อมูลที่เราต้องการ
2.ไปที่หน้าต่าง Data Source Click ขวา ที่ Field ในกรอบสีเหลือง แล้วเลือกประเภทชนิดข้อมูลที่เราต้องการได้เลย
Note เพิ่มเติม เมื่อมีการเปลี่ยนชนิดข้อมูล Describe ก็อาจจะเปลี่ยนแปลงตามไปด้วย
แต่ทั้งนี้ ในตัวโปรแกรม Tableau นั้น มีอีกหนึ่งตัวช่วยที่จะทำให้ผู้จัดทำข้อมูล สามารถทำการสำรวจข้อมูลนี้ได้สะดวกมากยิ่งขึ้น นั่นก็ คือ "Describe"
วิธีการ คือ Click ขวาที่ Field นั้น แล้วเลือก "Describe"
Tips : keyboard shortcut CTRL + E
จะปรากฏหน้าต่างขึ้นมา ดังรูปด้านล่าง
โดยตรงลูกศรสีม่วง คือ "ชื่อ Field"
ในลูกศรสีเหลือง และกรอบสี่เหลี่ยมสีเหลือง จะเป็น คำอธิบายข้อมูลของแต่ละ Field ที่เราเลือก โดยหลักๆ จะประกอบด้วย 9 หัวข้อ (ในบาง Field ข้อมูลอาจจะมีน้อยกว่านี้แตกต่างกันไปตามชนิดของข้อมูล)
โดย 9 หัวข้อนี้ ประกอบด้วย
- Role --> ซึ่งบอกรายละเอียดข้อมูลว่าเป็นข้อมูลประเภทใด ดังเช่นดังรูปด้านบน จะเป็น "Discrete Dimension"
- Type --> เป็นการบอกว่า Field นั้นๆ มาจาก "Database Column" หรือ "Calculated Field"
Tips : กรณีของ Calculated Field จะมีข้อมูลเพิ่มเติมในเรื่องของ Formula ให้เราสามารถดูสูตรการคำนวณต่างๆ ที่ใช้ได้ ดังรูปด้านล่าง (ตรงลูกศรสีม่วง คือ Field ที่เป็น Calculated Field และลูกศรสีเหลือง คือ Field ที่เป็น Database column)
- Remote column --> ให้ข้อมูลเรื่องแหล่งข้อมูลเดิมของ Field นั้นๆ มาจาก Data Source ใด และมีชื่อ Field เดิมว่าอะไร ตรงนี้ช่วยทำให้เราสามารถอ้างอิง Field ในการทำข้อมูลได้ถูกต้อง และแม่นยำ
- Remote type --> บอกประเภทชนิดข้อมูล (Data type) ของแหล่งข้อมูลเดิมของ Field นั้นๆ
- Contains NULL --> เป็นการระบุว่า Field นี้ พบค่า "NULL" หรือไม่ ซึ่งตามตัวอย่างรูปด้านล่าง มีค่า NULL จึงแสดงว่าคำว่า "Yes"
- Locale --> เป็นตัวช่วยในการบอกว่า ขณะที่เรากำลังทำข้อมูลอยู่นี้ ใช้รูปแบบ (Format) ของประเทศใด โดยตามรูปด้านล่างจะเป็น Locale ของ United States (English) นั่นเอง
Note! ตัวอย่างที่พบได้บ่อย จากการเลือก Locale นั้น ก็คือ รูปแบบของวันที่ เช่น หากเราเลือก Locale เป็น European รูปแบบของวันที่ในการแสดงผลจะเป็น "dd/mm/yyyy'' แต่ถ้าเราเลือก Locale เป็น United States (English) จะแสดงผลรูปแบบวันที่เป็น "mm/dd/yyyy"
- Sort flags --> ให้ข้อมูลว่าใน Field นี้ เวลาเรียกใช้ข้อมูลจะเป็นลักษณะของ Case-sensitive หรือ Case-Insensitive (เป็นการบอกว่า ในกรณีมีตัวอักษรพิมพ์เล็ก หรือ พิมพ์ใหญ่จะมองเป็น Case เดียวกัน)
Note! แต่ถ้าหากข้อมูลของเรา เช่น Field ข้อมูล ID มีลักษณะ ดังนี้
- 00Q34000025nKLxEAM
- 00Q34000025nKLxEam
ซึ่งทั้ง 2 ID นี้ เป็นคนละ ID กัน แล้ว Sort flags เป็น Case-Insensitive เราต้องคำนึงถึงประเด็นนี้ในการวิเคราะห์ข้อมูลด้วย เพราะถ้าเป็นตามนี้ การนับแบบ Count Distinct จะมีค่าเท่ากับ 1 ซึ่งจริงๆ แล้ว ควรจะมีค่าเท่ากับ 2 ตามลักษณะข้อมูลของ Field ข้อมูล ID
- Column width --> ให้ข้อมูลว่า ใน Data Source ที่เรากำลังใช้งานนั้น มีทั้งหมดกี่ Column
- Status --> เป็นการบอกสถานะว่า ใน Field นั้นๆ พร้อมใช้งานหรือไม่
Note! หาก Field ข้อมูลนั้น เป็น Calculated field กรณีที่เราเผลอไปลบ (Delete) Field ข้อมูลที่เกี่ยวข้องกัน อาจจะส่งผลให้สูตรการคำนวณเกิด error ได้
Status จะเป็นสิ่งหนึ่งที่ช่วยบอกเราได้ว่า ต้องมีการปรับแก้ไขสูตรการคำนวณใหม่ ให้ถูกต้องและพร้อมใช้ในการวิเคราะห์ข้อมูลหรือไม่
สรุป! (Conclusion)
การสำรวจข้อมูล (Explore Data) เป็นสิ่งที่พึงกระทำเป็นสิ่งแรกในการวิเคราะห์ข้อมูล โดยในโปรแกรม Tableau นั้น ก็ได้เตรียมเครื่องมือที่เป็นเสมือนผู้ช่วยให้การสำรวจข้อมูลของเรานั้น ทำได้ง่ายและสะดวกมากยิ่งขึ้น
ผ่านการคลิกขวาเลือก Field ข้อมูลที่สนใจ อ่านรายละเอียดข้อมูลต่างๆ ได้ อย่างละเอียดและครบถ้วน รู้ว่า Field ข้อมูลนี้ ชื่ออะไร เดิมเคยชื่ออะไร เป็นชนิดข้อมูลแบบใด อ้างอิงมาจากแหล่งข้อมูลใด เพื่อให้การวิเคราะห์ข้อมูลของเรานั้น ตอบโจทย์ในแต่ละคำถามได้อย่างชัดเจนมากที่สุด
ดังนั้น ในการวิเคราะห์ข้อมูลครั้งถัดไป อย่าลืมลองเรียกใช้ "Describe" เพราะเครื่องมือนี้อาจช่วยให้ทุกคนจัดการข้อมูลได้ถูกต้อง ครบถ้วน และมีประสิทธิภาพนั่นเอง
เรายังเหลืออีก Part คือ เรื่อง การเลือกข้อมูลที่จำเป็นไปในการวิเคราะห์ (Part II) ในการเพิ่มประสิทธิภาพการทำงานของโปรแกรม Tableau รออ่านและติดตามกันต่อได้ใน Part II น้า :)
อ้างอิง (Reference)
Kiavash Sayar. (2018). How to Tell Tableau Fields are Case-Insensitive. สืบค้นจาก community.tableau.com/s/question/0D54T00000..
Stephanie Kennedy. (2015). The Tableau Performance Checklist: Data – Use ‘Describe’ to Explore. สืบค้นจาก interworks.com/blog/skennedy/2015/03/26/tab..