본문 바로가기

Tech Stack/AICE - Associate

(9)
AICE - Associate 정리 데이터 로드 odf = pd.read_csv('titanic.csv', encoding='cp949') odf.head(2) 데이터 복사 df = odf.copy() 1.관측치 갯수, 데이터 수, 행 수, 인스턴스 수 2.컬럼수 3.결측치 = 891보다 작으면 여기에 결측치가 있는 피처가 있구나 df.info() 호구조사 df.describe() describe() = 통계정보 수치형만 요약정보를 제공함 결측치가 존재하는 데이터 파악 df.isnull.sum() 계약 이탈 예측 import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.read_csv('경로') df 지도학습 레이블 이진분류 데이터 -> 이진분류용 알고리즘..
AICE - associate 실습1 Raw Data 라벨링이 되어있지 않음 Labeled Data 실시간 데이터가 아니라 정확도가 낮음 def html_num_whitespace(soup): try: # soup > body > text > count NullCount = soup.body.text.count(' ') return float(NullCount) except: return 0.0 NullCount = soup.body.text.count(' ') def html_num_characters(soup): try: #soup > body > text bodyLen = len(soup.body.text) return float(bodyLen) except: return 0.0 다음 코드와 def html_num_whitespace(..
AICE - Associate - 7 딥러닝 모델링 딥러닝 모델의 매개변수 (weight, bias)를 무작위로 부여한 후, 반복학습을 통해 모델의 출력값을 정답과 일치하도록 매개변수를 조금씩 조정함 Gradient Descent 최적화 알고리즘 Perceptron 사람 두뇌에 있는 뉴런을 모델링 한 것 간단한 함수를 학습할 수 있음 y =w0x0 + w1x1 + w2x2 + w3x3 수만은 피처들이 들어옴 --> 최적의 w를 구함 y = wx DNN 입력층과 출력층 사이에 여러 개의 은닉층으로 이루어진 인공 신경망 신경망 출력에 비선형 활성화 함수를 추가하여 복잡한 비선형 관계를 모델링 할 수 있음 Activation function Loss Function 출력과 정답의 차이를 계산 y-y^ MSE 제곱 MAE 절대값 이진 분류 : 남자여자 다중 분류..
AICE - Associate - 7 머신러닝 모델링 머신러닝 프로세스 데이터 수집 - 데이터 정리 - 테스트 데이터 셋(간직) - 모델 학습 - 모델테스트 - 모델배포 Linear Regression 가설 : 공부를 많이 하면 공부를 잘할 것이다. y=wx+b w가중치 y토익점수 x는 학습시간 최적의 직선구하기 예측값 - 실제값 = error, cost y=wx (예측값 -실제값)^2/N = cost 포물선 모양이 나옴 그래프상에서 비용이 제일 낮은 아래부분을 찾으면 된다. 경사하강법. gradient Descent Algorithm 이용 잘 정리된 데이터 확보가 중요! 지도학습 vs 비지도 학습 분류모델 이산적으로 나눠질 수 있는 문제 밥값 많이 남성, 적게 여성 예측 모델 레이블 값들이 연속적인 문제 밥값이 많이 나올 수록 팁의 크기도 커짐 data ..
AICE - associate - 5 데이터 전처리 데이터 전처리 head(), tail() describe() info() 데이터 확인 데이터 불러오고 탐색 시작 1. 데이터 확인하기 df.info() df.head() df.tail() df.describe() cust=df[["cust_class", ...]] 간단하게 만들기 cust = cust.rename(columns = {"cust_class" : 'class', "sex_type":'sex' ...} 오브젝트 타입의 연산은 문자가 붙여서 나옴 예를들어 나이 12+12를 했을 때 24가 아닌 1212가 나옴 cust=cust.astype({'age': int}) but _라는 단어가 들어있기 때문에 에러가 발생할 수 있음 따라서 전처리가 필요함 cust = cust.replace("_", np..
AICE - associate - 4 pandas 2 drop 데이터를 지욱 axis = 1, 0 행(0)기준 열(1)기준 설정하기 defult는 0 원본데이터를 다른이름으로 저장하지 않고 덮어쓰는 방법 inplace=Ture 원본데이터를 변경하겠다. Group by 하나로 묶음 분할 - 적용 - 데이터 병합 pivot, pivot_tavle 데이터 프레임 형태를 변경 사전적 의미. 축을 중심으로 회전 col, row 기준으로 변형 기본적으로는 같은 기능을 하지만 table은 aggfunc이 있음 pivot은 불가하고 pivot table은 가능한 경우 index가 2개 이상인 경우 - columns가 2개 이상인 경우 - 중복 값이 있는 경우 stack, unstack groupby groups속성 groups를 활용해서 확인 가능 count 데이터 개수..
AICE - Associate - Python 기본 2 - pandas import pandas as pd DataFrame명 = pd.read_csv(파라미터) filepath seq encoding df.head df.tail(n=10) 정의 가능 shape columns info describbe dtype loc 이름 라벨 기준으로 슬라이싱 데이터프레임을 기준으로 name, age 라벨자체를 가져올 수 있음 iloc 동일하게 name age같은게 있을 때 0, 1 번호 기준으로 가져올 수 있음 column추가 삭제 import padas as pd import numpy ad np 판다스는 대소문자를 구분 함 a1 = pd.DataFram 딕셔니러형, 리스트형으로 데이터 프레임 생성 가능 파일 읽어서 하려면 cust = pd.read_csv('./~~', encodi..
AICE - Associate 2 - python 기본 python 빅데이터, AI에 용이 Indexing 가르킨다. 특정한 값을 뽑아낸다 X[번호]를 통해 인덱싱 할 수 있음 -1은 뒤부터 시작 Slicing 단어를 잘라내어 뽑아오는 방법 X[시작번호:끝번호] 끝번호는 -1임 X[:] 전부 출력 String 문자열 integer 정수형 float 소수포함 리스트 자료형 [ ] ,로 구분 range 텀 리스트변수 이름 뒤에 . 을 붙여서 여러가지 함수를 사용 튜플은 ()으로 둘러 쌈 튜플은 수정과 추가 삭제가 불가 자료형 : 프로그래밍을 할 때 쓰이는 숫자, 문자열 등 자료형태로 사용하는 모든 것 ex a = [1,2,3] b=list(range(1,10,2)) a.append('yellow') a.insert(1, 'black') a.extend(b) c ..