728x90
반응형

실전 머신러닝 데이터

• 머신러닝 알고리즘의 단계적인 배포 : 데이터 수집을 통한 데이터 탐색과 준비

• 데이터 수집

  ✔ 텍스트 파일, 스프레드 시트, 데이터베이스 등의 사용할 학습 자료를 수집한 후 알고리즘 실행 가능한 지식 생성

• 데이터 탐색과 준비

  ✔ 머신러닝 프로젝트의 고품질 여부는 데이터의 품질에 따라 좌우됨

  ✔ 데이터 탐색 작업은 데이터 간의 미묘한 차이에 따른 파악 필요

  ✔ 학습 과정에 적합한 데이터의 준비와 추가 작업 필요

  ✔ 데이터의 교정 또는 정리

  ✔ 불필요한 데이터 제거

  ✔ 학습자의 기대에 적합한 데이터 코드화 작업

 


실전 머신러닝 모델

• 모델 훈련

  ✔ 분석용 데이터를 준비하여 데이터로 학습

  ✔ 머신러닝 작업 : 적합한 알고리즘 선택

  ✔ 알고리즘 : 모델화 한 형태로 데이터 표현

• 모델 평가

  ✔ 머신러닝 학습 모델 알고리즘은 자신의 경험적인 학습 평가 면에서 중요

  ✔ 모델 종류에 따라 테스트 데이터 셋 모델의 정확도 면 평가

  ✔ 특화된 성능 척도 면 개발 필요

• 모델 개선

  ✔ 모델의 성능 향상은 고급 전력 활용

  ✔ 다른 종류의 모델로 전환할 가능성 있음

  ✔ 추가 데이터로 데이터 보충 또는 추가 준비 작업 수행이 필요할 수 있음

 


예측된 작업 배포

• 모델의 정상적인 작동은 예측된 계획의 작업용으로 배포

• 예측용 데이터 제공, 마케팅 또는 리서치의 통찰 데이터 생성, 작업의 자동화 모델로 활용

• 모델의 성공 여부는 차세대 학습자의 훈련을 위한 데이터로 활용

 


입력된 데이터 형식

• 머신러닝에는 학습 알고리즘을 입력 데이터에 적용하는 작업이 포함됨

• 머신러닝을 문제에 적용하기 전에 입력 데이터 셋을 구별하고 용어 의미 이해하는 것이 중요

• 예시 : 속성을 포함한 관측 데이터의 인스턴스

• 특징 : 학습에 활용할 수 있는 예시 데이터의 기록된 속성 또는 특성

 


비구조화 데이터

• 처리 가능한 입력 데이터 면의 복잡도에 따라 사람과 기계로 구분

• 사람

  ✔ 텍스트, 그림, 소리 등의 비구조화 데이터 처리 가능

  ✔ 방대한 속성을 포함한 관측치 처리에 유동적

  ✔ 특징이 약한 관측치 처리에 유연함

 


데이터 셋 특징

• 수치 : 숫자 형태로 측정된 특성

• 범주의 집합 유형 : 범주 또는 명목으로 구분

• 범주형 변수 : 서열

• 서열 목록의 범주 : 명목 변수

• 개수와 종류는 머신러닝 알고리즘을 결정함

• 특징의 표현 방법이 중요

반응형
복사했습니다!