Eggs Sunny Side Up
본문 바로가기

분류 전체보기399

Linux 기본설정 cmd 연결 확인 아래 ping 211.228.63.163 주소로 연결되는지 확인! '요청 시간이 만료되었습니다.'문구는 연결안된 것! putty 다운로드 후 설치! putty 실행하기 어떤 창이 뜨면 'Accept'를 누르면 됨! id : stduser / pw: stduser 작성 후 로그인하면 아래와 같이 창이 뜸 나만의 계정은 관리자로 로그인 후 개설해줘야함! 2023. 6. 21.
네이버 영화리뷰 분석 시스템 환경변수 [Path에 경로 추가] '찾아보기'버튼 클릭 후 내PC -> C드라이브 -> Program Files -> Java -> jdk1.8.0_202 -> bin [Java Home] 만들어주기 '디렉토리 찾아보기'버튼 클릭 후 아래 경로로 확인! 내PC -> C드라이브 -> Program Files -> Java -> jre1.8.0_202 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype Archived: Python Extension Packages for Windows - Christoph Gohlke Archived: Python Extension Packages for Windows - Christoph Gohlke by Christoph G.. 2023. 6. 20.
영화리뷰 분석 데이터 다운로드 받는 사이트 http://ai.stanford.edu/~amaas/data/sentiment/ ROC곡선 - 임계값을 0 ~ 1까지 변화시켜 가면서 x축 : 가짜 양성비율(FPR), y축 : 진짜 양성비율(TPR)을 표시해서 그린 곡선 - 임계값 변환에 따른 양성/음성 분류여부가 달라지고 ROC곡선도 달라짐 - ROC 곡선 아래 면적 --> AUC(Area Under the Curve) - AUC 값이 1에 가까울수록 분류 모델의 성능이 좋다고 평가 ### 문제정의 - 영화 리뷰데이터를 활용해서 긍정, 부정의 감성분석을 해보자 - 텍스트 데이터를 다루는 방법을 이해하자 ### 데이터 수집 - 웹페이지에서 다운로드 # 파일을 읽어들이는 함수 from sklearn.datasets impor.. 2023. 6. 20.
Logistic_SVM_손글씨 숫자 데이터 분류 실습 회귀 : 정답이 연속적인 수치값 --> 예측값을 그대로 사용 분류 : 정답이 정해져 있어서 --> 연속적인 수치값을 사용할 수 없음 선형분류 모델 : 선형함수를 결정경계로 '가중치들의 합 > 0' ==> 1 '가중치들의 합 0 Logistic Regression - Sigmoid(S자형 곡선)라는 선형 함수를 사용 - 결정경계가 곡선으로 그려짐 - sigmoid는 입력값이 0 ~ 1 까지의 범위로 변환 --> 확률값으로 사용함 - 개와 고양이를 분류 => 개(80%), 고양이(60%) sigmoid 함수를 잘 그렸는지 확인 - 교차 엔트로피 오차 함수 선형회귀 : MSE, R2 score SVM - 결정경계와 가장 인접한 데이터를 서포트 벡터라 부름 - 결정경계와 서포트 벡터 간의 거리를.. 2023. 6. 19.
선형회귀_LinearRegression_보스턴 주택가격 실습 LinearRegression 판단 LinearRegression의 단점 : 모델이 잘못되었을 때 개설할 수 없다. ==> 규제(정규화)를 가해서 해결 규제 : 선형모델에서 가중치(w)에 영향을 주는 것 --> 모델에 개입한다. 1. L1 규제(Lasso) : LinearRegression + L1 규제 - 모든 w에 특정값만큼 규제를 가하겠다. - 가중치가 0이 되어 사용하지 않는 특성이 생김 --> 특성 선택 - 특정 데이터가 중요할 때 사용 2. L2 규제(Ridge) : LinearRegression + L2 규제 - 모든 가중치(w)에 특정 %만큼의 규제를 가하겠다. - 규제를 많이 가해도 전체 가중치는 사용 - 전체 데이터가 고르게 중요할 때 사용 - 가중치가 0은 되지 않음 ### 문제 정의.. 2023. 6. 19.
선형회귀 선형모델 : 입력 특성(데이터)을 설명할 수 있는 선형 함수를 구하는 것 => 데이터에 대한 선형함수 선형함수의 기본식 : y = ax + b ==> 문제가 1개인 컬럼 문제가 p개의 컬럼 : y = w1x1 + w2x2 + ... + xpxp + b a(기울기) = w(가중치) w : 각 컬럼(문제)마다 다른 가중치를 적용 입력 데이터를 설명하는게 불가능 why? 그릴 수 있는 선형함수의 수가 무한대이기 때문에 모든 선형함수의 오차를 계산할 수 없음 --> 오차가 가장 작은 선형함수를 찾는 게 목적(입력 데이터를 가장 잘 설명하는 선형함수) 평균제곱오차(MSE)가 가장 작은 선형함수가 최선의 선형함수이다. 선형모델의 목적 그릴 수 있는 무한대의 선형함수 중에서 평균제곱오차가 가장 작은 선형함수 찾기 평.. 2023. 6. 16.