본문 바로가기

Tech Stack

(49)
기계학습 7 - 활성화함수 층을 깊이 쌓기만 하면 복잡한 기능을 할 수 있는 신경망 모델을 만들어 낼 수 있을 것으로 기대했지만, 층을 깊이 쌓을수록 신경망은 더 정교한 기능을 하는 것이 아니라 학습을 하지 못 하는 모델이 되어버림 역전파 될수록 신호가 소실되는 사라지는 경사 문제 발생 폭발하는 경사 문제도 존재 시그모이드, 균등분포 사용 대칭함수를 활용 사라지는 경사 폭발 경사 문제 해결하기 위해 연결강도 초기화를 해야함. 각 은닉층의 크기가 동일해야 함 입력되는 신호의 개수 팬-인 출력 팬-아웃 연결강도 초기화 방법 글로럿 초기화, 세이비어 초기화 시그모이드 함수 -> 역전파에 부적합하여 ReLU와 같은 정류화 함수들이 잘 동작하는 것이 발견 은닉층을 매우 많이 쌓은 신경망에서 ReLU활성화를 사용할 때 글로럿 초기화보다 빠르..
기계학습 6 - 역전파 공부 뇌는 뉴런이라는 수없이 많은 신경세포들의 연결을 갖고있음 인공 신경망은 이러한 신경세포의 동작을 흉내내는 장치나 소프트웨어를 만들어 뇌가 수행하는 인지나 사고 능력을 갖춘 기계를 만들려는 노력 이러한 방식의 연구를 통해 인공지능을 구현하려는 방식을 연결주의 신경세포가 활성화 되면 선으로 표현된 연결의 끝 지점에 있는 시냅스가 이 신호를 다른 신경세포로 전달, 이때 파란색을 가진 끝점은 1의 신호가 전달되는 것을 의미 흰색 원으로 표시된 끝점은 억제 시냅스로서 연결된 신경세포가 활성화되지 못하게 막는 역할 신경세포 모델은 학습이 불가능 이 모델의 신경세포는 설계된 동작만 수행 가능 학습가능하게 한 것이 퍼셉트론 신경망 모델에서는 이 연결강도가 바로 모델의 동작을 결정하는 파라미터 오차를 계산하는 방법은 다..
기계학습 - 5 다항회귀, 지니 불순도, SVM 결정 트리 데이터의 특징을 보고 앞에서 본 것과 같은 트리를 찾아내는 일 속성중에서 어떤것이 가장 중요한 것인지 판단하기 위해 정보이득이라는 개념을 사용 엔트로피라는 개념을 살펴봐야함 \ 엔트로피를 줄이면 확실해 졌다. 분류에서 좋은 결과 ID3는 정보이득 CART알고리즘은 불순도 개념 에러 4개 에러 8개 전자가 정보이득이 큼 확실해 짐 불순도의 개념 순도 L > 순도 R 지니 불순도를 이용한 효율적인 평가 서포트 벡터 머신 SVM 파란색 원과 노란색 사각형은 서로 다른 그룹에 속한 데이터. 초평면은 여러개가 존재 초평면을 화살표로 표시된 법선 벡터 방향으로 움직였을 때 데이터에 닿지 않는 폭이 넓을수록 좋은 것 가장 폭이 넓은 것을 찾는 방법 마진 어떠한 데이터도 마진 내에 들어오지 않을 경우 마진을..
우리 FISA AI엔지니어링 - Elasticsearch - 4 Data view, pip line 대시보드 만들기 외부 파일: Analytics → Machine Learning → Visualize data from a file 선택 이미 엘라스틱서치에 적재된 인덱스를 대시보드로 만들 때는 Management → Stack Management → Create data view 선택 git clone https://github.com/YeonjiKim0316/streamlit_elk . 깃 주소 가져오기 내꺼에 푸쉬하고 싶다면 Mkdir python-elk Cd python-elk git clone https://github.com/YeonjiKim0316/streamlit_elk . Git remote -v git remote remove origin Github에서 새 레파지토리 생성 git re..
기계학습 4 - predict, 분류, 등 knn.predict confusion matrix 혼동행렬 만약 데이터가 편향데이터라면 우수한 머신러닝 알고리즘을 사용할 지라도 99퍼 정확도 가지는 분류기는 매우 구현이 어려움 정밀도 , 재현율 혼동행렬 재현율, 정밀도 개념 확보 정밀도 진짜맞는지 재현율 진짜 아닌지 앙상블 머신러닝의 집단지성 서로다른 모델로 각각의 분류기를 만들기 서로다른 학습데이터를 통해 다양성을 확보 확률 통계에서는 복원추출 비복원 추출 배깅기법 개선 부스팅 기법 군집화. 유유상종 초깃값 지정 중요 k=3 이면 원을 그렸을 때 3개가 포함되면 그걸로 예측 kmeans 평균값 초깃값 초기평균값에 따라 성능이 달라짐 art계열은 그 문제를 해결하긴 함 다항회귀 선형회귀 f(x) is linear 비선형으로 다양화를 시켜야 함. 다변..
우리 FISA AI엔지니어링 - Elasticsearch - 3 집계API 실습 집계 API 로그 : 한줄한줄 쌓이는 로그 페턴을 장애가 많이 일어나는 항목이 어디인지, ex 채소를 클ㄹ릭하게 되면 uri가 변함 (숫자) 그렇게 들어가는 시간을 로그로 기록하게 된다면 특정번호에 접속할 때 많은 시간이 걸리는 부분을 확인하고 속도를 향상시키는 작업을 할 수 있다. 메트릭스 : 지표표시 집계 API종류 엘라스틱서치의 집계는 크게 메트릭(metric) 집계(총합, 평균, 최소값, 최대값), 버킷(bucket) 집계(구간별로 구간의 대표값을 도출), 파이프라인 집계(특정 상황에 고정해놓고 메트릭 확인)로 분류되며, 집계의 대상을 추려낼 검색 조건을 검색 API에 담은 뒤 집계 조건을 추가해서 호출하는 방식으로 작동합니다. 메트릭 집계 문서에 대한 산술적인 연산을 수행: avg, max, m..
AICE - Associate - Python 기본 2 - pandas import pandas as pd DataFrame명 = pd.read_csv(파라미터) filepath seq encoding df.head df.tail(n=10) 정의 가능 shape columns info describbe dtype loc 이름 라벨 기준으로 슬라이싱 데이터프레임을 기준으로 name, age 라벨자체를 가져올 수 있음 iloc 동일하게 name age같은게 있을 때 0, 1 번호 기준으로 가져올 수 있음 column추가 삭제 import padas as pd import numpy ad np 판다스는 대소문자를 구분 함 a1 = pd.DataFram 딕셔니러형, 리스트형으로 데이터 프레임 생성 가능 파일 읽어서 하려면 cust = pd.read_csv('./~~', encodi..
우리FISA AI 엔지니어링 Elasticsearch - 2 2023.12.28 bin\elasticsearch.bat 실행 bin/kibana.bat 실행으로 환경 실행 만약 문제가 생겼다면 net stop winnat net start winnat 으로 다시 실행 nori[노리] 형태소 분석기: Elasticsearch 6.6 부터 공식지원 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-nori-speech.html 세종 품사태그를 사용합니다 https://lucene.apache.org/core/9_6_0/analysis/nori/org/apache/lucene/analysis/ko/POS.Tag.html nori 형태소 분석기(ANALYZER)의 구성 세부 설명 nori_tok..