Sources
แหล่งข้อมูล มาจาก
- Database ของ Applications โปรแกรมต่าง ๆ ภายในคณะฯ ทั้งที่เป็น SQL และ NoSQL
- File spreadsheets ที่หน่วยงานต่าง ๆ เก็บข้อมูล และส่งมาให้
- Data Service Layer (DSL) ที่ทำหน้าที่เป็น Integration Gateway และส่งผ่านข้อมูลจากระบบอื่นมาให้ในรูปแบบ API (JSON)
Ingestion & Transport
การขนข้อมูล รวมถึง Extraction and Load ใช้เครื่องมือ
- Microsoft SQL Server Integration Services (SSIS)
- Apache Airflow
- ขณะนี้กำลัง explore Airbyte เพิ่มเติม
Storage
การเก็บข้อมูลสำหรับการวิเคราะห์ ทั้ง Data Lake และ Data Warehouse ด้วย Microsoft SQL Server
Transformation
การแปลงข้อมูล เดิมใช้การเขียน SQL scripts ปัจจุบันอยู่ระหว่างการแปลง scripts เดิมและเพิ่มเติม scripts ใหม่ด้วย dbt ให้เป็นระบบมากขึ้น และใช้โปรแกรม Tableau Prep ร่วมแปลงข้อมูลด้วย
Analytics Workflows
Descriptive Analytics
การวิเคราะห์ข้อมูลเบื้องต้น ใช้โปรแกรม Tableau Desktop
Predictive Analytics
การวิเคราะห์ข้อมูลที่ซับซ้อนขึ้น ใช้การเขียนโปรแกรม Python และ R
End Points
ผู้ใช้งานสามารถเข้าถึงรายงานข้อมูลได้ผ่าน Tableau Server และสามารถตั้งเวลาส่ง screenshots อัตโนมัติให้รายคนผ่าน Si vWORK (Enterprise Chat Platform)
ส่วนโปรแกรม Data Science ที่พัฒนาด้วย Python ใช้ Streamlit ในการเข้าถึง
Auxiliaries
- Data Catalog: dbt docs
- Documentation: Confluence
- Version Control: GitHub *มีผลงานบางส่วนเปิดเผยสาธารณะ แต่ผลงานส่วนใหญ่เป็น private ภายใน
- Communication & Alert: Slack โดยเชื่อมต่อ Automated Bots เช่น GitHub, Airflow, Airtable เป็นต้น
- Data Models: OMOP CDM, HL7 FHIR, Unified Star Schema
แนะนำแหล่งศึกษาเพิ่มเติม