도시가스 수요 및 공급 예측을 위한 데이터셋 대시보드를 구축하였습니다.
완성된 대시보드 웹 페이지는 여기서 확인 가능합니다.
프로젝트 기간: 22.07.28 ~ 2022.08.17
- 한국가스공사 대상 천연가스 수입량 결정에 필요한 데이터셋 제공
- 도시가스 지역관리소 대상 공급 괍리에 필요한 데이터셋 제공
- 정확한 에너지 수요 예측을 통한 직·간접적인 경제 사회 비용 절감
no | 내용 | 출처 | 형식/방식 |
---|---|---|---|
1 | 월별 도시가스 공급실적 | 한국도시가스협회 | XLS/FILE |
2 | 월간 시도별 도시가스 판매현황 | 공공데이터포털 | CSV/FILE |
3 | 한국지역난방공사 난방지수 정보 | 공공데이터포털 | CSV/FILE |
4 | 가스(LNG) 수급 동향 및 전망 | 산업통상자원부 | CSV/FILE |
5 | 생산자물가지수 | 한국은행 | JSON/API |
6 | 수입물가지수 | 한국은행 | JSON/API |
7 | 수입물량지수 | 한국은행 | JSON/API |
8 | 수입금액지수 | 한국은행 | JSON/API |
9 | 도시가스요금 | 한국은행 | CSV/CRAWLING |
10 | 도시가스 수요가 수 | 국가에너지통계 | CSV/CRAWLING |
11 | 지역별 기온분석 월 자료 | 기상자료개방포털 | CSV/CRAWLING |
- AWS EC2
- Hadoop [3.2.4]
- Spark [3.1.3]
- Django [3.2.16]
- MySQL
- Airflow
데이터 수집 및 적재
- BeautifulSoup, selenium 등을 사용하여 html 파싱 후 hadoop 적재
데이터 처리
- pyspark 활용하여 총 11종류, 34개의 raw data를 최종 ERD에 맞게 가공 후 mySQL 저장
서비스 페이지 구현
- Django 이용하여 서비스 페이지 제작
- 지역별, 기간별에 따른 공급량 및 수요량 변화 확인
자동화
- 지속적인 업데이트가 필요한 ETL 과정[데이터 수집 -> 하둡 적재 -> 스파크 처리 -> MySQL 적재]을 airflow로 스케줄링하여 자동화
서비스 배포
- AWS EC2를 통한 서비스 구축 후 NGINX·uWSGI를 통한 배포