Eggs Sunny Side Up
본문 바로가기

Computer Engineering/머신러닝12

타이타닉 데이터 실습_앙상블 ### 전처리된 데이터 파일 불러오기 import pandas as pd X_train = pd.read_csv('./X_train.csv') X_test = pd.read_csv('./X_test.csv') y_train = pd.read_csv('./y_train.csv') X_train.shape, X_test.shape, y_train.shape - 머신러닝에서 점수(성능)를 높이기 위해서 할 수 있는 것 1. 좋은 데이터를 구하기 2. 데이터에 맞는 모델 찾기 3. 하이퍼 파라미터 튜닝 ### 앙상블 모델 사용하기 - 머신러닝에서 성능이 좋은 모델 - 여러 개의 DecisionTree를 사용하는 모델 #### RandomForest 모델 사용 from sklearn.ensemble import .. 2023. 6. 15.
타이타닉 데이터 분류 ### 문제정의 - 타이타닉 데이터를 활용하여 생존과 사망을 구분하는 머신러닝 모델을 만들자 - kaggle 사이트에 올려서 순위도 확인해보자(내림차순) ### 데이터 수집 - kaggle 사이트에서 데이터를 다운로드 # train, test 데이터 가져오기 # train 변수 : train.csv 파일 가져오기 # test 변수 : test.csv 파일 가져오기 import pandas as pd train = pd.read_csv('./data/titanic/train.csv') test = pd.read_csv('./data/titanic/test.csv') print(train.shape) print(test.shape) # train : 891개 데이터, 12개 특성 # test : 418개 데.. 2023. 6. 13.
Decision Tree_버섯데이터 분류 실습 Decision Tree : 결정트리, 의사결정나무, 결정나무 - KNN : 주변에 있는 이웃들을 검색하는 알고리즘 - 질문을 순차적으로 나열해서 데이터를 구분하는 알고리즘 - 가장 먼저 던지는 질문 : Root Node => 가장 중요한 질문 : 가지고 있는 데이터를 가장 잘 구분할 수 있는 질문 - 가장 마지막에 던지는 질문 : Leaf Node => 더 이상 질문이 나열되지 않는 상태, 상대적으로 덜 중요한 질문 - 각 질문의 중요도를 구분하기 위해 사용하는 지표 : 지니불순도, 엔트로피 ==> 각 데이터가 얼마나 섞여있는지를 판단 ==> 많이 섞여있을수록 : 불순도가 높음 ==> 조금 섞여있을수록 : 불순도가 낮음 - 불순도가 가장 낮은 것이 가장 중요한 질문 : Decision Tree 알고리즘.. 2023. 6. 8.
KNN-iris 분류 실습 ### 문제정의 - 붓꽃의 품종을 구분하는 머신러닝 모델 만들기 - 지도학습, 분류 ### 데이터 수집 - sklearn에서 제공하는 Iris 데이터 셋을 사용 from sklearn.datasets import load_iris iris_data = load_iris() iris_data # 어떤 타입의 데이터? # 전체적으로는 딕셔너리 타입 - numpy 배열, String 등이 포함 # bunch라는 객체 형식으로 되어 있음. iris_data.keys() # 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비 iris_data['data'] # 어떤 품종을 가지고 있는지 # 숫자로 3개의 품종을 구분 iris_data['target'] # 0 : 'setosa', 1: 'versicolor', 2.. 2023. 6. 7.
머신러닝 학습 7단계 머신러닝 학습단계 1. 문제정의 2. 데이터 만들기 3. 데이터 전처리 4. 탐색적 데이터 분석(EDA) ==> 위 문제에서는 생략 5. 모델생성, 하이퍼 파라미터 튜닝 6. 학습 7. 평가 BMI 실습 ### 문제정의 - 머신러닝을 통해서 어떤 문제를 해결할 것인가? - 500명의 성별, 키, 몸무게, 비만도 등급을 이용하여 비만을 판단하는 머신러닝 모델 만들기 - 목표 : 머신러닝 전체 학습과정의 흐름을 이해하기 - 지도학습 => 분류 ### 데이터 수집 - csv 파일로 이루어진 데이터 수집 - 500명의 성별, 키, 몸무게, 비만도 등급 import pandas as pd bmi = pd.read_csv('./data/bmi_500.csv') bmi ### 데이터 전처리 - 1. 결측치 처리 : .. 2023. 6. 5.
머신러닝 기초_AND 연산 머신러닝 활용분야 머신러닝 종류 머신러닝 : 데이터에서 규칙을 찾아내는 것 1. 지도학습 문제, 정답을 학습 문제가 정답을 출력하기 위한 규칙을 찾아냄. -분류 : 정답의 종류가 정해져 있음 -회귀 : 정답의 종류가 정해져 있지 않음. 정답의 미묘한 차이가 크게 중요하지 않다. 2. 비지도 학습 문제만 학습 문제가 가지고 있는 특징(규칙, 패턴)을 찾음 -클러스터링(군집): 문제만 학습시켜서 특징이 비슷한 것끼리 그룹을 지어줌 -차원축소 : 의미있는 데이터만 남김으로 인한 데이터의 차원을 줄여줌 3. 강화학습 문제와 완벽하지 않은 정답을 학습 스스로 학습을 통해 정답을 찾음 ### AND 연산 - 문제정의 훈련데이터와 테스트 데이터 이해하기 AND 연산의 결과 도출하는 머신러닝 모델 학습하고 이해하기 #.. 2023. 6. 2.