เครื่องมือที่ศิริราชใช้ในการจัดการข้อมูล

เครื่องมือที่ศิริราชใช้ในการจัดการข้อมูล

Siriraj Data Stack

Max Natthawut Adulyanukosol
·Apr 22, 2022·

Data Stack

Sources

แหล่งข้อมูล มาจาก

  • Database ของ Applications โปรแกรมต่าง ๆ ภายในคณะฯ ทั้งที่เป็น SQL และ NoSQL
  • File spreadsheets ที่หน่วยงานต่าง ๆ เก็บข้อมูล และส่งมาให้
  • Data Service Layer (DSL) ที่ทำหน้าที่เป็น Integration Gateway และส่งผ่านข้อมูลจากระบบอื่นมาให้ในรูปแบบ API (JSON)

Ingestion & Transport

การขนข้อมูล รวมถึง Extraction and Load ใช้เครื่องมือ

Storage

การเก็บข้อมูลสำหรับการวิเคราะห์ ทั้ง Data Lake และ Data Warehouse ด้วย Microsoft SQL Server

Transformation

การแปลงข้อมูล เดิมใช้การเขียน SQL scripts ปัจจุบันอยู่ระหว่างการแปลง scripts เดิมและเพิ่มเติม scripts ใหม่ด้วย dbt ให้เป็นระบบมากขึ้น และใช้โปรแกรม Tableau Prep ร่วมแปลงข้อมูลด้วย

Analytics Workflows

Descriptive Analytics

การวิเคราะห์ข้อมูลเบื้องต้น ใช้โปรแกรม Tableau Desktop

Predictive Analytics

การวิเคราะห์ข้อมูลที่ซับซ้อนขึ้น ใช้การเขียนโปรแกรม Python และ R

End Points

ผู้ใช้งานสามารถเข้าถึงรายงานข้อมูลได้ผ่าน Tableau Server และสามารถตั้งเวลาส่ง screenshots อัตโนมัติให้รายคนผ่าน Si vWORK (Enterprise Chat Platform)

ส่วนโปรแกรม Data Science ที่พัฒนาด้วย Python ใช้ Streamlit ในการเข้าถึง

Auxiliaries

  • Data Catalog: dbt docs
  • Documentation: Confluence
  • Version Control: GitHub *มีผลงานบางส่วนเปิดเผยสาธารณะ แต่ผลงานส่วนใหญ่เป็น private ภายใน
  • Communication & Alert: Slack โดยเชื่อมต่อ Automated Bots เช่น GitHub, Airflow, Airtable เป็นต้น
  • Data Models: OMOP CDM, HL7 FHIR, Unified Star Schema

แนะนำแหล่งศึกษาเพิ่มเติม

 
Share this