본문 바로가기

Industry 4.0/Machine Learning

(11)
kaggle 에서 Titanic data set 불러오기 www.kaggle.com Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com Titanic 검색 Data 에서 아래에 보면 Download All 을 클릭해서 .csv data set 을 내려받는다 import pandas as pd pd.read_csv(' 내려받은 csv 파일 위치 ')
퍼셉트론 종속변수가 2개인 경우퍼셉트론 병렬로 연결
Machine Learning Classification
Data Set & 독립변수 , 종속변수 표 = Data Set 한 줄 정리 독립변수는 원인이다. 종속변수는 결과다. 독립변수와 종속변수의 관계를 인과관계라고 한다. 인과관계는 상관관계에 포함된다.
Gaussian Mixture Model GMM Gaussian Mixture Model (GMM)은 이름 그대로 Gaussian 분포가 여러 개 혼합된 clustering 알고리즘이다. 현실에 존재하는 복잡한 형태의 확률 분포를 [그림 1]과 같이 KK개의 Gaussian distribution을 혼합하여 표현하자는 것이 GMM의 기본 아이디어이다. 이때 KK는 데이터를 분석하고자 하는 사람이 직접 설정해야 한다. [그림 1] 여러 Gaussian distribution의 혼합 분포 주어진 데이터 xx에 대해 GMM은 xx가 발생할 확률을 [식 1]과 같이 여러 Gaussian probability density function의 합으로 표현한다. [식 1]에서 mixing coefficient라고 하는 πkπk는 kk번째 Gaussian distr..
머신 러닝의 순서 지금까지 택시 거리와 택시비에 대한 문제를 가지고 머신 러닝에 대한 기본 원리를 살펴보았다. 이를 요약해서 머신 러닝이란 것이 어떤 개념을 가지고 있는지 다시 정리해보자. 기본 개념은 데이타를 기반으로해서 어떤 가설 (공식)을 만들어 낸 다음, 그 가설에서 나온 값이 실제 측정값과의 차이(코스트 함수)가 최소한의 값을 가지도록 변수에 대한 값을 컴퓨터를 이용해서 찾은 후, 이 찾아진 값을 가지고 학습된 모델을 정의해서 예측을 수행 하는 것이다. 학습 단계 즉 모델을 만들기 위해서, 실제 데이타를 수집하고, 이 수집된 데이타에서 어떤 특징(피쳐)를 가지고 예측을 할것인지 피쳐들을 정의한 다음에, 이 피쳐를 기반으로 예측을 한 가설을 정의하고, 이 가설을 기반으로 학습을 시킨다. 예측 단계 학습이 끝나면 모..
선형회귀를 통한 머신 러닝의 개념 이해 거리에 따른 택시 요금 문제 머신러닝이란 무엇일까? 개념 이해를 돕기 위해서 선형 회귀 (Linear Regression)이라는 머신러닝 모델을 보자 먼저 선형 회귀 (Linear regression)이 무엇인지 부터 이해를 해야 하는데,예를 들어서 설명해보자, 택시 요금을 예로 들어보자,택시 요금은 물론 막히냐 마냐에 따라 편차가 있지만, 대부분 거리에 비례해서 요금이 부과된다. 거리별 요금을 그래프로 나타내보면 대략 다음과 같은 분포를 띄게 된다 원본 데이타의 거리를 x_data 그리고, 그 거리에서 측정되니 택시 요금을 y_origin 이라고 하자.가설 (Hypothesis) 정의 거리와 요금이 서로 비례하기 때문에, 거리(x_data)와 요금(y_data)간의 상관 관계는 다음과 같이 일차 방정식..
Machine & Deep Learning 머신 러닝과 딥러닝 이러한 머신 러닝의 분야중, 인공 지능망 (뉴럴 네트워크 / Artificial neural network)라는 기법이 있는데, 사람의 뇌의 구조를 분석하여, 사람 뇌의 모양이 여러개의 뉴런이 모여서 이루어진것 처럼, 머신 러닝의 학습 모델을 두뇌의 모양과 같이 여러개의 계산 노드를 여러 층으로 연결해서 만들 어낸 모델이다. 이 모델은 기존에 다른 기법으로 풀지 못하였던 복잡한 문제를 풀어낼 수 있었지만, 계층을 깊게 하면 계산이 복잡하여 연산이 불가능하다는 이유로 그간 관심을 가지고 있지 못했 다가 캐나다의 CIFAR (Canadian Institute for Advanced Research) 연구소에서 2006년에 Hinton 교수가 ”A fast learning algorithm..