실전 머신러닝 데이터
• 머신러닝 알고리즘의 단계적인 배포 : 데이터 수집을 통한 데이터 탐색과 준비
• 데이터 수집
✔ 텍스트 파일, 스프레드 시트, 데이터베이스 등의 사용할 학습 자료를 수집한 후 알고리즘 실행 가능한 지식 생성
• 데이터 탐색과 준비
✔ 머신러닝 프로젝트의 고품질 여부는 데이터의 품질에 따라 좌우됨
✔ 데이터 탐색 작업은 데이터 간의 미묘한 차이에 따른 파악 필요
✔ 학습 과정에 적합한 데이터의 준비와 추가 작업 필요
✔ 데이터의 교정 또는 정리
✔ 불필요한 데이터 제거
✔ 학습자의 기대에 적합한 데이터 코드화 작업
실전 머신러닝 모델
• 모델 훈련
✔ 분석용 데이터를 준비하여 데이터로 학습
✔ 머신러닝 작업 : 적합한 알고리즘 선택
✔ 알고리즘 : 모델화 한 형태로 데이터 표현
• 모델 평가
✔ 머신러닝 학습 모델 알고리즘은 자신의 경험적인 학습 평가 면에서 중요
✔ 모델 종류에 따라 테스트 데이터 셋 모델의 정확도 면 평가
✔ 특화된 성능 척도 면 개발 필요
• 모델 개선
✔ 모델의 성능 향상은 고급 전력 활용
✔ 다른 종류의 모델로 전환할 가능성 있음
✔ 추가 데이터로 데이터 보충 또는 추가 준비 작업 수행이 필요할 수 있음
예측된 작업 배포
• 모델의 정상적인 작동은 예측된 계획의 작업용으로 배포
• 예측용 데이터 제공, 마케팅 또는 리서치의 통찰 데이터 생성, 작업의 자동화 모델로 활용
• 모델의 성공 여부는 차세대 학습자의 훈련을 위한 데이터로 활용
입력된 데이터 형식
• 머신러닝에는 학습 알고리즘을 입력 데이터에 적용하는 작업이 포함됨
• 머신러닝을 문제에 적용하기 전에 입력 데이터 셋을 구별하고 용어 의미 이해하는 것이 중요
• 예시 : 속성을 포함한 관측 데이터의 인스턴스
• 특징 : 학습에 활용할 수 있는 예시 데이터의 기록된 속성 또는 특성
비구조화 데이터
• 처리 가능한 입력 데이터 면의 복잡도에 따라 사람과 기계로 구분
• 사람
✔ 텍스트, 그림, 소리 등의 비구조화 데이터 처리 가능
✔ 방대한 속성을 포함한 관측치 처리에 유동적
✔ 특징이 약한 관측치 처리에 유연함
데이터 셋 특징
• 수치 : 숫자 형태로 측정된 특성
• 범주의 집합 유형 : 범주 또는 명목으로 구분
• 범주형 변수 : 서열
• 서열 목록의 범주 : 명목 변수
• 개수와 종류는 머신러닝 알고리즘을 결정함
• 특징의 표현 방법이 중요
'프로그래밍 > 머신러닝&딥러닝' 카테고리의 다른 글
[머신러닝] 머신러닝 알고리즘의 일반적인 종류 (0) | 2022.02.21 |
---|---|
[머신러닝] 머신러닝 알고리즘 형식 (0) | 2022.02.18 |
[머신러닝] 기계학습 방법 (0) | 2022.02.11 |
[머신러닝] 머신러닝의 한계 (0) | 2022.02.10 |
[머신러닝] 머신러닝 성공 유형 및 사용 사례 (0) | 2022.02.09 |