1주차 1강요약(머신러닝/딥러닝 개념과 용어)

News Summary

루닛, 세계 100대 AI 기업 랭킹에 국내 기업 유일 선정 (플래텀)(2017.01.17)

영향력 있는 컴퓨터 사이언스 및 머신러닝 관련 학자 인지도(2017.01.15)

사람은 못찾는 사진 속 바다소, 기계는 찾는다(2017.01.15)

MS, 딥러닝회사 Maluuba 인수. “오슈아 벤지오” 교수가 자문 담당(2017.01.13)

보면 좋은 정보

테리의 딥러닝토크

초짜 대학원생의 머신러닝/딥러닝 블로그

모두를 위한 머신러닝/딥러닝

CNN 역전파 이해하기

딥 러닝으로 회사내 상관의 움직임을 파악하여 일하는 직원이 되자

Tensorflow 한글 번역 gitbook

선형대수 - 이상화교수(2013)

관련 책

머신러닝 인 액션 - 머신러닝 관련 python 책(But, python version : 2.7)

밑바닥 부터 시작하는 딥러닝 - 이론은 보면 볼수록 쉽다 느껴지나, 코드는 개발자용 코드

Tensorflow 첫걸음 - 딥러닝 프레임워크인 tensorflow에 관한 내용

인공지능

인간이 가진 지적 능력(사고,학습) 등을 컴퓨터로 구현하는 기술

머신러닝

어떠한 현상에 대해 학습을 하는 일종의 프로그램

  • 지도학습(supervised learning)

    • 데이터에 정답이 있는 학습

      • regression : 연속적인 데이터에 대한 분석

        • ex) 성적예측, 성별예측
      • classification : 이산적인 데이터에 대한 분석

        • ex) e-mail 스팸 구분
  • 비지도 학습(unsupervised learning)

    • 데이터에 정답이 없는 학습

    • ex) 고객등급 세분화, 문서 분류

딥러닝

사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야

인공지능,머신러닝,딥러닝의 관계도:

인공지능-머신러닝-딥러닝

변수분류

통계학적 뿐만 아니라 머신러닝/딥러닝 상에서도 중요하다 생각하여 적음

  • 이산형 변수

    • 명목변수(명목척도)
      • 대상에 대해 일정한 범주에 속하도록 이름을 부여하지만, 범주간의 순위는 없는 변수

      • ex) 남/녀, 혈액형(A,B,O)

    • 순위변수(순서척도)
      • 대상에 대해 일정한 이름을 부여하며, 순서도 있는 변수

      • ex) 성적(A,B,C,D,F), 학렬(초졸,중졸,고졸,대졸)

  • 연속형 변수

    • 간격변수(등간척도)
      • 측정된 변수간에 등간성과 단위가 부여되지만, 절대적인 0과 비율이 없는 변수

      • ex) 온도

    • 비율변수(비율척도)
      • 측정된 변수간에 등간성과 단위가 부여되면서 절대0과 비율이 있는 변수

      • ex) 키, 몸무게, 나이, 시간

  • 독립변수

    • 다른 변수를 설명하는 변수(=설명변수/input값/feature값)
  • 종속변수

    • 다른 변수로부터 예측되는 변수(=결과변수/output값/label값)

    • 독립변수의 변화에 따라 변화하는 변수

Hypothesis(가설)

현실 조건에서 증명하거나 검증하기 어려운 사물, 현상의 원인 또는 합법칙성에 관하여 예측하는 이론(by 위키피디아)

  • 귀무가설

    • 우리가 증명하고자 하는 가설의 반대되는 의미
    • 효과와 차이가 없는 가설을 의미
  • 대립가설

    • 귀무가설과 반대로 우리가 증명하고자 하는 가설
    • 효과와 차이가 있는 가설을 의미


귀무가설을 “기각되기를 바라는 가설”이라 하며 버리는 가설이라는 얘기도 있으나, 버린다는 의미는 우리가 중요시하는 것은 대립가설 이기 때문에 대립가설에 비해 중요함이 떨어진다는 의미로 받아들이는 것이 맞다고 본다. 가설검정에 있어서 귀무가설과 그에 반대되는 우리가 알고자 하는 대립가설 이 둘다 중요하다고 생각된다.

어느 현상에 대해서 통계, 머신러닝, 딥러닝에서 우리가 알고자 하는 가설은 대립가설 을 의미함

모델

수학에서의 함수와 같다고 생각. 입력값에 대해 출력(추론값)값을 나타낸다.

학습 데이터 분류

  • train data : 우리가 만든 모델에 대해 훈련하기 위한 데이터

  • validation data : overfitting 또는 underfitting 을 확인하기 위한 데이터

  • test data : 학습된 모델에 대한 새로운 검증을 위한 데이터

손실함수(cost function)

  • 우리가 추론한 가설(대립가설)에 대한 추론식이 실제 데이터와 비교했을 때 얼마나 가까이 붙어있는지(얼마나 효율적으로 추론하는가)를 계산하는 공식

over fitting

훈련 데이터에 대해 모델을 지나치게 학습한 경우의 현상을 의미한다. 자기 몸에 꽉 맞는 옷을 구매한 경우를 말함.

under fitting

훈련 데이터에 대해 충분히 학습을 하지 못한 상태를 의미한다. 자기 몸에 너무 큰 옷을 구매한 경우를 말함.

Written on January 28, 2017