본문 바로가기

전체 글

(71)
기계학습 4 - predict, 분류, 등 knn.predict confusion matrix 혼동행렬 만약 데이터가 편향데이터라면 우수한 머신러닝 알고리즘을 사용할 지라도 99퍼 정확도 가지는 분류기는 매우 구현이 어려움 정밀도 , 재현율 혼동행렬 재현율, 정밀도 개념 확보 정밀도 진짜맞는지 재현율 진짜 아닌지 앙상블 머신러닝의 집단지성 서로다른 모델로 각각의 분류기를 만들기 서로다른 학습데이터를 통해 다양성을 확보 확률 통계에서는 복원추출 비복원 추출 배깅기법 개선 부스팅 기법 군집화. 유유상종 초깃값 지정 중요 k=3 이면 원을 그렸을 때 3개가 포함되면 그걸로 예측 kmeans 평균값 초깃값 초기평균값에 따라 성능이 달라짐 art계열은 그 문제를 해결하긴 함 다항회귀 선형회귀 f(x) is linear 비선형으로 다양화를 시켜야 함. 다변..
우리 FISA AI엔지니어링 - Elasticsearch - 3 집계API 실습 집계 API 로그 : 한줄한줄 쌓이는 로그 페턴을 장애가 많이 일어나는 항목이 어디인지, ex 채소를 클ㄹ릭하게 되면 uri가 변함 (숫자) 그렇게 들어가는 시간을 로그로 기록하게 된다면 특정번호에 접속할 때 많은 시간이 걸리는 부분을 확인하고 속도를 향상시키는 작업을 할 수 있다. 메트릭스 : 지표표시 집계 API종류 엘라스틱서치의 집계는 크게 메트릭(metric) 집계(총합, 평균, 최소값, 최대값), 버킷(bucket) 집계(구간별로 구간의 대표값을 도출), 파이프라인 집계(특정 상황에 고정해놓고 메트릭 확인)로 분류되며, 집계의 대상을 추려낼 검색 조건을 검색 API에 담은 뒤 집계 조건을 추가해서 호출하는 방식으로 작동합니다. 메트릭 집계 문서에 대한 산술적인 연산을 수행: avg, max, m..
AICE - Associate - Python 기본 2 - pandas import pandas as pd DataFrame명 = pd.read_csv(파라미터) filepath seq encoding df.head df.tail(n=10) 정의 가능 shape columns info describbe dtype loc 이름 라벨 기준으로 슬라이싱 데이터프레임을 기준으로 name, age 라벨자체를 가져올 수 있음 iloc 동일하게 name age같은게 있을 때 0, 1 번호 기준으로 가져올 수 있음 column추가 삭제 import padas as pd import numpy ad np 판다스는 대소문자를 구분 함 a1 = pd.DataFram 딕셔니러형, 리스트형으로 데이터 프레임 생성 가능 파일 읽어서 하려면 cust = pd.read_csv('./~~', encodi..
우리FISA AI 엔지니어링 Elasticsearch - 2 2023.12.28 bin\elasticsearch.bat 실행 bin/kibana.bat 실행으로 환경 실행 만약 문제가 생겼다면 net stop winnat net start winnat 으로 다시 실행 nori[노리] 형태소 분석기: Elasticsearch 6.6 부터 공식지원 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-nori-speech.html 세종 품사태그를 사용합니다 https://lucene.apache.org/core/9_6_0/analysis/nori/org/apache/lucene/analysis/ko/POS.Tag.html nori 형태소 분석기(ANALYZER)의 구성 세부 설명 nori_tok..
기계학습 - 3 mean_absolute_error = 절대값 w를 점점점점 떨어트려서 평균제곱 오차를 확인 선형 회귀 모델에서 'w'와 'd'는 각각 특정 변수를 나타낼 수 있습니다. 일반적으로 'w'는 가중치(기울기)를 의미하며, 'd'는 종종 절편(bias)을 나타내는 데 사용 다루고자하는 문제에 따라 튜닝하는것이 중요 군집화 K-NN알고리즘 분류문제 분류와 군집화 비슷한끼리 모으는 법 분류하고자하는 데이터가 어디에 가까운지 특징을 잘 잡아야함 ex) 특정 자동차의 특징을 빨간색으로만 분류 합성곱신경망 피처를 뽑아내는것을 에러가 min되는 방향으로 뽑아내기 때문에 classfication에서 좋음 k-최근접이웃 k-nn 데이터 인스턴스 클래스 특징의 요소들의 개수가 많다면, 많은 메모리공간과 계산시간이 필요하다는 ..
AICE - Associate 2 - python 기본 python 빅데이터, AI에 용이 Indexing 가르킨다. 특정한 값을 뽑아낸다 X[번호]를 통해 인덱싱 할 수 있음 -1은 뒤부터 시작 Slicing 단어를 잘라내어 뽑아오는 방법 X[시작번호:끝번호] 끝번호는 -1임 X[:] 전부 출력 String 문자열 integer 정수형 float 소수포함 리스트 자료형 [ ] ,로 구분 range 텀 리스트변수 이름 뒤에 . 을 붙여서 여러가지 함수를 사용 튜플은 ()으로 둘러 쌈 튜플은 수정과 추가 삭제가 불가 자료형 : 프로그래밍을 할 때 쓰이는 숫자, 문자열 등 자료형태로 사용하는 모든 것 ex a = [1,2,3] b=list(range(1,10,2)) a.append('yellow') a.insert(1, 'black') a.extend(b) c ..
기계학습 - 2 y=wx+b 비선형 회귀 : 지도학습 알고리즘 선형회귀 : x에 대응되는 실수 y들이 주어지고 추정치 f(x)가 가진 오차를 측정 숨겨진 관계를 표현하고 약품 투입량과 같은 독립 변수에 대해 오염도라는 종속 변수가 어떤 값을 가질지 예측하는 fa(x)와 fb(x)를 가설이라고 부름 좋은 가설은 오차가 작은 가설 데이터에 제시된 목표값을 레이블이라고 부름 이진 분류 : 데이터를 양분하는 경계 직선 혹은 곡선을 찾는 것 특징 : 관찰되는 현상에서 측정할 수 있는 개별적인 속성을 의미 기계학습 특징 예 사람의 키와 몸무게 개의 몸통길이와 높이 주택 가격에 영향을 주는 주택의 특징 특징에 대한 분석이 선행되어야 기계학습이 효과적으로 이루어짐 연쇄법칙 : 매개변수를 통해서 연결이 되는 구조 좋은 가설이라면 데이터..
우리FISA AI 엔지니어링 Elasticsearch - 1 엘라스틱 환경 접속 엘라스틱 서치에서 Elasticsearch, Kibana를 설치. jvm.options에서 33번째 줄 주석 제거 후 -Xms1g -Xms1g 로 변경 elasticsearch.yml 끝에 cluster.name: woori-es node.name: woori-es-node01 path: data: C:\ITStudy\ELK\elasticsearch\data logs: C:\ITStudy\ELK\elasticsearch\logs network.host: 127.0.0.1 discovery.type: "single-node" xpack.security.enabled: false 작성 ---- rver.port: 5601 server.host: localhost server.publicB..