Al빅데이터 예측과정
시계열 데이터 분석
시계열 데이터 분석이란 주식 가격과 같이 시간에 따라 순차적으로 발생된 데이터들을 분석하는 방법입니다. 이러한 데이터는 금융, 경제, 비즈니스, 과학, 의료 등 다양한 분야에서 발생할 수 있으며, 주로 연속적인 시간 간격으로 측정됩니다.
시계열 분석의 목적은 데이터의 패턴을 파악하고 미래를 예측하는 것입니다.
AI빅데이터 분석을 위한 단계
1. 분석적 사전 검토
데이터의 계절성, 추세, 주기성 등을 파악합니다.
2. 모델 선택 및 트레이닝 (AI빅데이터 분석 알고리즘-LSTM, GRU, ARIMA, ES 등 사용)
데이터의 특성에 맞는 모델을 선택하고, 훈련 데이터를 사용해 모델을 트레이닝합니다.
3. 성능 평가 및 검증
검증 데이터셋을 사용하여 모델의 예측 능력을 평가합니다.
4. 예측
최종 모델을 사용해 미래 데이터를 예측합니다.
5. 적중률 검증
예측한 내용과 실제 결과에 대해 비교 검증하고 적중률을 산정합니다.
6. 시계열 분석을 위한 도구 및 라이브러리로는 Python의 Pandas, NumPy, statsmodels, scikit-learn, TensorFlow, PyTorch 등을 사용하였습니다.
7.<알고리즘 적용>
- GradientBoosting, Random Forest, Decision Tree, SVM 알고리즘을 통한 로또 번호 무작위성 뽑기 예측
- 번호별 출현 빈도별 확률 계산, 핫 번호와 확률 기반 번호 조합
- 조합 분석 및 몬테 카를로 시뮬레이션으로 빈도 업데이트, 베이지안 업데이트 번호를 조합하여 최종 번호 선택
8 .<나오기 힘든 숫자 조합 제외> 예시) 연속 숫자가 5개 이상 나오는 경우 등
- 전회차 로또 동일번호, 기출 번호 합계 범위, 초기 숫자 집중, 등차 수열, 대칭적인 숫자 조합, 숫자 끝자리 패턴
- 색상 기반의 조합, 연속된 숫자들의 조합, 동일한 숫자 그룹, 규칙적인 숫자 간격, 특정 숫자 패턴의 반복, 단일 자릿수 변화 조합
- 소수로만 이루어진 숫자 조합, 평균값 기반 조합, 분할된 범위 선택 조합, 숫자의 순서 조합 등 적용