모집단 (Population)

모집단(母集團, 영어: population 또는 universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. 모집단의 개체인 사람은 성별, 지역정당 등과 같은 범주적 특성과 나이, 소득, 키, 몸무게 등과 같은 수량적인 특성을 띄고 있다. 통계학에선 사람들의 결합인 모집단의 범주적 특성에 관심을 가진다. 이들의 범주적 특성인 성별, 지역정당에 따른 소득의 변화와 같은 수량적 특성에 주목하는데, 이는 변수이면서 확률적 특성을 가지고 있다고 해서 확률변수라고 한다.

 

 

확률 변수 (Random Variable)

일정한 확률을 갖고 발생하는 사건(event) 또는 사상(事象)에 수치가 부여되는 함수

일반적으로 대문자 X로 나타낸다. 확률변수 X의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 X가 p의 확률로 x의 값을 가진다는 것은 P(X=x) = p 등의 확률함수로 표현할 수 있다.

어떤 확률변수가 어떤 특정 값을 취할 확률을 함수로 나타낸 것은 확률함수라고 하고, 그 함수의 모든 가능한 값들에 할당될 수 있는 모든 확률을 식으로 정의하거나 이를 시각화하여 나타낸 것이 바로 확률분포이다.


보통 확률변수 X가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(discrete random variable)연속확률변수(continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 1/2을 불러주는 확률변수는 어느 둘에도 속하지 않는다.

[ 출처: 나무위키 ]

누적 분포 함수(cumulative distribution function, cdf)는 어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다. --> F(x)

확률 질량 함수(probability mass function, pmf)는 이산 확률 변수 X가 취할 수 있는 값 x1, x2, x3, ... 의 각각에 대해서 확률 P(X=x1), P(X=x2), P(X=x3), ... 을 대응시켜주는 관계이다.


확률 밀도 함수(probability density function, pdf)는 연속 확률 변수 X에 관한 확률을 결정하는 함수 f(x)이다. 기본적으로 연속형 확률변수의 경우에는 개별 값들에 대한 확률값이 존재하지 않는다. 연속의 경우에는 반드시 구간단위로 확률이 존재할 수 밖에 없는데 확률밀도 함수는 특정 지점(작은 구간)에대한 값을 말한다.
[ 확률 밀도 함수의 정의, F 는 누적분포함수 ]

 

 

평균 (기대값, Expected Value)

확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.

모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수의 기댓값이다.

[ 출처: 위키백과 ]

 

 

분산 (Variance)

어떤 확률변수의 분산(分散, 영어: variance, 변량)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다.

분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다. 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값(관측값-평균)의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모 분산(population variance) σ2은 모 집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본 분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

[ 출처: 위키백과 ]

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다. 정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.

 

 

표준편차 (Standard Deviation)

표준 편차(標準 偏差, 영어: standard deviation)는 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다. 통계학과 확률에서 주로 확률의 분포, 확률변수 혹은 측정된 인구나 중복집합을 나타낸다. 일반적으로 모집단의 표준편차는 σ (시그마)로, 표본의 표준편차는 S (에스)로 나타낸다.

편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다.

표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만들어준다.

모 표준 편차(population standard deviation) σ는 모집단의 표준 편차이다. 모 분산 σ2에 제곱근을 씌워서 구한다.

표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 제곱근을 씌워서 구한다.

 

 

공분산 (Covariance)

공분산(共分散, 영어: covariance)은 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.

이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

 

[ 출처: 위키백과 ]

 

 

상관 분석 (Correlation Analysis)

상관 분석(correlation analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis)
3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다. 이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

[ 상관 분석의 예시 ]

이미지 출처

피어슨 상관 계수(Pearson correlation coefficient)는 두 변수간의 관련성을 구하기 위해 이용하는 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치이다. 개념은 다음과 같다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다.

r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도
( = 두 변수의 공분산 을 표준 편차 의 곱으로 나눈 값 )

- 결과의 해석:

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

로 해석한다.

서로 다른 상관 계수 값 (ρ)을 갖는 산포도 다이어그램의 예
여러 데이터셋와 각 셋의  x와  y의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우  Y  의 분산이 0이므로 상관 계수가 정의되지 않는다.

 

스피어만 상관계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관계수는 -1과 1 사이의 값을 가지는데 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다.

스피어만 상관 계수는 순위가 매겨진 변수 간의 피어슨 상관 계수 로 정의된다

피어슨의 상관 계수가 두 변수 사이의 선형 관계를 평가하는 반면 스피어만의 상관 계수는 단조 적 관계 (선형인지 여부는 아님)를 평가한다. 중복 데이터 값이 없으면 각 변수가 다른 변수의 완벽한 단조 함수 일 때 +1 또는 -1의 완벽한 스피어만 상관 관계가 발생한다.

위 그래프처럼 두 변수 X와 Y가 선형 관계가 아니더라도 스피어만 상관 계수는 1이 될 수 있다. 하지만 +1의 피어슨 상관 계수를 보장하지는 않는다.
위 그래프처럼 데이터가 뚜렷한 경향성을 보이지 않을 경우에 스피어만 상관 계수와 피어슨 상관 계수는 비슷한 값을 가진다.
스피어만 상관 계수는 피어슨 상관 계수에 비해 이상치에 덜 민감하다. 이는 스피어만 상관 계수의 ρ가 이상치를 그 값이 아닌 순위로써만 고려하기 때문이다.

 

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다.

예를 들어 설문지 조사의 경우, 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

 

 

인공지능의 영역

출처:  https://www.credera.com/blog/technology-solutions/machine-learning-essentials/

  • 위 그림에서 알 수 있듯이, 인공지능은 크게 기계 학습(machine learning), 자연어 처리(natural language processing), 전문가 시스템(expert system), 컴퓨터 비전(vision), 스피치(speech), 계획(planning), 그리고 로보틱스(robotics)로 구분된다.

  • 기계 학습은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다.

  • 기계 학습의 핵심은 표현(representation)일반화(generalization)에 있으며, 표현이란 데이터의 평가이며 일반화란 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말한다.

  • 기계 학습과 데이터 마이닝은 종종 같은 방법을 사용하여 중첩되는데 다음과 같은 차이가 존재한다.

    • 기계 학습은 훈련 데이터를 통해 학습된 알려진 속성을 기반으로 예측하는데 초점을 둔다.

    • 데이터 마이닝은 데이터의 미처 몰랐던 속성을 발견하는 것에 집중한다.

  • 기존 프로그램은 동작이 명시된 explicit programming 인 반면, 기계 학습이 적용된 프로그램의 경우 컴퓨터가 스스로 데이터를 학습하는 프로그램이라 볼 수 있다.

  • 기계 학습 알고리즘은 여러 가지 종류가 있으며 데이터의 유형(연속형/범주형)과 학습 목적에 따라 다음과 같이 나눠볼 수 있다.

    1. 분류

      • [범주형] 퍼셉트론

      • [범주형] 로지스틱 회귀

      • [범주형] 신경망

      • [범주형] 서포트 벡터 머신

      • [범주형] k-최근접 이웃 탐색

      • [범주형] 나이브 베이즈

      • [연속형/범주형] 결정 트리

      • [연속형/범주형] 랜덤 포레스트

      • [연속형/범주형] GBDT

    2. 회귀

      • [연속형] 선형 회귀

      • [연속형] 다항 회귀

    3. 군집화 및 차원축소

      • [연속형] 특이값 분해

      • [연속형] 주성분 분석

      • [연속형] K-Means

    4. 연관 분석

      • [범주형] 연관 규칙(A priori algorithm)

        [범주형] FP-Growth

    5. 은닉 마르코프 모형

 

기계 학습의 영역

  • 심층 학습(Deep Learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions)를 시도하는 기계 학습 알고리즘의 집합으로 정의된다. (by 위키백과)

    • "높은 수준의 추상화"란 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업을 말한다.

    • "비선형 변환기법의 조합"이란 비선형 함수들로 구성된 복합 함수를 의미하며, 복합 함수를 찾을 수 있도록(=함수의 매개변수를 찾는 행위) 인공 신경망을 설계하는 학문이 심층 학습에 해당된다.

    • 초기의 인공 신경망 모델인 퍼셉트론(perceptron)은 2차원 좌표계에서 선형 함수로 영역을 구분할 수 있는 단층 퍼셉트론(입력과 출력만 받는 구조)이었지만, XOR 게이트 문제를 해결하기 위해 중간에 선형 분리를 하는 층(Layer)을 추가하여 비선형 함수로도 영역을 구분할 수 있는 다층 퍼셉트론(입력과 출력을 받는 층 사이에 연산을 수행하는 층이 추가된 구조)으로 발전하였다.

    • 이처럼 입력층과 출력층 사이에 은닉층이 2개 이상 존재하는 경우 심층 신경망(Deep Neural Network)이라고 하며 층이 늘어날수록 시간 복잡도가 매우 커지기 때문에 이를 최적화할 수 있는 연구가 계속 진행되오고 있다.

  • 지도 학습(Supervised Learning)은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다. 훈련 데이터는 일반적으로 입력에 대한 속성을 벡터(vector) 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. (by 위키백과)

    • 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀 분석(regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인지 표시하는 것을 분류(classification)라고 한다.

    • "함수를 유추"라는 의미는 함수의 매개변수를 찾는 행위이다.

    • "입력에 대한 속성을 벡터 형태로 포함한다"는 것은 데이터셋의 속성이 여러 개일 경우 데이터셋이 행렬 형태가 되는 것을 의미한다.

    • "원하는 결과가 표시"라는 것은 데이터셋에 입력에 대한 출력값이 정해져 있다는 의미이며, 이러한 데이터셋을 정답이 있는 데이터(Labeled-data)라고 한다.

    • 지도 학습의 목적은 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바르게 추측해내는 것이다.

    • 지도 학습에서는 훈련 데이터의 각 정답을 맞출 때까지 학습을 시키며, 훈련 데이터에 없는 데이터까지 맞추는 것을 목표로 하므로 테스트 데이터셋(test set)과 검증 데이터셋(validation set)을 추가로 학습시킨다.

  • 비지도 학습(Unsupervised Learning)은 데이터가 어떻게 구성되었는지를 알아내개 위한 기계 학습의 한 방법이다. 지도 학습과 달리 입력값에 대한 목표값 혹은 출력값이 주어지지 않는다. 즉, 정답이 없는 데이터(unlabeled-data)를 학습하여 정답을 만드는 것이 목적이다.

    • 군집 분석(Clustering), 차원 축소(Dimension Reduction), 연관 분석(Association) 문제를 해결할 때 이용된다.

출처:  https://vas3k.com/blog/machine_learning/

 

지도 학습(Supervised Learning)

  • 정해진 데이터라는 건, label 이 명시된 training set 을 의미하며, 아래의 그림처럼 cat 이라고 명명된 데이터를 입력으로 주어 학습시킨다. 다른 데이터가 학습된 데이터에 포함될 수 있는지 없는지를 따진다.

[ 출처:  https://medium.com/@jorgesleonel/supervised-learning-c16823b00c13 ]

  • 예를 들면, 종류는 다음과 같이 구분할 수 있다.

    • 시간에 따른 예측: regression

    • 시간에 따른 pass / non-pass: binary classification

    • 시간에 따른 분류: multi-label classification

 

비지도 학습(Unsupervised Learning)

  • 비지도 학습에서는 정해지지 않은 데이터 (명명되지 않은 데이터, unlabeled data)를 그룹화하거나, 구분(분류가 아니다)을 하도록 학습시킨다.

  • 그리고 새로운 데이터를 학습할수록 데이터 셋에 추가되어 머신이 업데이트 된다.

[ 출처:  https://mapr.com/blog/apache-spark-machine-learning-tutorial/ ]
[ 비지도 학습의 과정 ]

 

기계 학습 알고리즘

  • 컴퓨터가 학습하는 방식에 따라 기계 학습 알고리즘은 다음과 같이 나눌 수 있다.

  • 심층 학습

    • (심층) 신경망

  • 지도 학습

    • 회귀

      • [연속형] 선형 회귀, 다항 회귀

    • 분류

      • [범주형] 로지스틱 회귀: 이진 분류, 다중 분류

      • [범주형] k-최근접 이웃(KNN)

      • [범주형] 나이브 베이즈(Naive-bayes)

      • [범주형] 서포트 벡터 머신(SVM)

      • [연속형/범주형] 결정 트리(Decision Tree), 랜덤 포레스트(Random Forest), GBDT

  • 비지도 학습

    • 군집화 및 차원 축소

      • [연속형] 특이값 분해(SVD)

      • [연속형] 주성분 분석(PCA)

      • [범주형] K-means

    • 연관 분석

      • [범주형] 연관 규칙(A-priori)

      • [범주형] FP-Growth

    • [범주형] 은닉 마르코프 유형

 

 

[Titanic]

https://www.kaggle.com/chapagain/titanic-solution-a-beginner-s-guide

 

Titanic Solution: A Beginner's Guide

Using data from Titanic: Machine Learning from Disaster

www.kaggle.com

 

How to score 0.8134 in Titanic Kaggle Challange

 

How to score 0.8134 in Titanic Kaggle Challenge

The Titanic challenge on Kaggle is a competition in which the task is to predict the survival or the death of a given passenger based on a set of variables describing him such as his age, his sex, or his passenger class on the boat. I have been playing wit

ahmedbesbes.com

 

Finding important factors to survive titanic

 

Finding Important Factors To Survive Titanic

Using data from Titanic: Machine Learning from Disaster

www.kaggle.com

 

'Machine Learning > Reference' 카테고리의 다른 글

Dev Setting for Docker and Using Library  (0) 2019.04.28

 

 

Docker: Anaconda/Jupyter + Tensorflow

 

...더보기

[Host shell]

docker run -it -p 8888:8888 -v $(pwd):/notebooks continuumio/anaconda3 /bin/bash

 

[Container]

conda install -c conda-forge tensorflow

jupyter notebook --ip='0.0.0.0' --port=8888 --no-browser --allow-root

 

 

https://www.slipp.net/wiki/pages/viewpage.action?pageId=26640967

 

anaconda (python 3 version)도커로 설치하고 사용하기 - SLiPP 스터디 - SLiPP::위키

들어가기 딥러닝 스터디를 위한 책의 코드를 돌려보기 위해서 필요한 파이썬 + 라이브러리는 다음과 같습니다. python 3 numpymatplotlib 아나콘다(anaconda)를 설치하면 보통 앞에서 언급한 라이브러리들이 모두 포함되어 있습니다.  간편하게 docker로 아나콘다를 실행해볼 수 있는 환경을 마련하는 방법을 소개합니다. (너무 쉽지만 개발환경 세팅으로 소중한 스터디 시간을 낭비하는 것을 막기 위해서) anaconda 도커 이미지 검색 일단

www.slipp.net

https://anaconda.org/conda-forge/tensorflow

 

Tensorflow :: Anaconda Cloud

 

anaconda.org

 

Tensorflow-Example

 

aymericdamien/TensorFlow-Examples

TensorFlow Tutorial and Examples for Beginners (support TF v1 & v2) - aymericdamien/TensorFlow-Examples

github.com

Numpy-Example

 

Quickstart tutorial — NumPy v1.16 Manual

NumPy provides familiar mathematical functions such as sin, cos, and exp. In NumPy, these are called “universal functions”(ufunc). Within NumPy, these functions operate elementwise on an array, producing an array as output. See also all, any, apply_along_a

docs.scipy.org

Jupyter-Reference

 

Project Jupyter

The Jupyter Notebook is a web-based interactive computing platform. The notebook combines live code, equations, narrative text, visualizations, interactive dashboards and other media.

jupyter.org

Pandas-Example

 

10 Minutes to pandas — pandas 0.24.2 documentation

10 Minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Object Creation See the Da

pandas.pydata.org

* 주피터 노트북에서 테이블 만들 때 편리함

 

IPython-Example

 

The IPython API — IPython 7.5.0 documentation

Important This documentation covers IPython versions 6.0 and higher. Beginning with version 6.0, IPython stopped supporting compatibility with Python versions lower than 3.3 including all versions of Python 2.7. If you are looking for an IPython version co

ipython.readthedocs.io

* 주피터 노트북에서 파이썬 모듈을 효율적으로 사용할 수 있게 해주는 API 이다. (영상이나 이미지를 올리는 것도 가능)

 

 

[Jupyter 실행 오류]

KeyError: 'allow_remote_access'

https://stackoverflow.com/questions/53752490/keyerror-allow-remote-access-in-jupyter-notebook-in-one-environment

 

KeyError: 'allow_remote_access' in jupyter notebook in one environment

I can run jupyter notebook without activating environment. Also I can run in under environment py35 I made. But when I try to run it under py36, it fails with Traceback (most recent call last): ...

stackoverflow.com

 

 

[Jupyter Notebook]

conda list | grep jupyter

 

shortcut

...더보기

Command Mode (press Esc to enable)

Enter

enter edit mode

Shift-­Enter

run cell, select below

Ctrl-Enter

run cell

Alt-Enter

run cell, insert below

Y

to code

M

to markdown

R

to raw

1

to heading 1

2,3,4,5,6

to heading 2,3,4,5,6

Up/K

select cell above

Down/J

select cell below

A/B

insert cell above/­below

X

cut selected cell

C

copy selected cell

Shift-V

paste cell above

V

paste cell below

Z

undo last cell deletion

D,D

delete selected cell

Shift-M

merge cell below

Ctrl-S

Save and Checkpoint

L

toggle line numbers

O

toggle output

Shift-O

toggle output scrolling

Esc

close pager

H

show keyboard shortcut help dialog

I,I

interrupt kernel

0,0

restart kernel

Space

scroll down

Shift-­Space

scroll up

Shift

ignore

Edit Mode (press Enter to enable)

Tab

code completion or indent

Shift-Tab

tooltip

Ctrl-]

indent

Ctrl-[

dedent

Ctrl-A

select all

Ctrl-Z

undo

Ctrl-S­hift-Z

redo

Ctrl-Y

redo

Ctrl-Home

go to cell start

Ctrl-Up

go to cell start

Ctrl-End

go to cell end

Ctrl-Down

go to cell end

Ctrl-Left

go one word left

Ctrl-Right

go one word right

Ctrl-B­ack­space

delete word before

Ctrl-D­elete

delete word after

Esc

command mode

Ctrl-M

command mode

Shift-­Enter

run cell, select below

Ctrl-Enter

run cell

Alt-Enter

run cell, insert below

Ctrl-S­hif­t-S­ubtract

split cell

Ctrl-S­hift--

split cell

Ctrl-S

Save and Checkpoint

Up

move cursor up or previous cell

Down

move cursor down or next cell

Ctrl-/

toggle comment on current or selected lines

 

 

Jupyter-Example

 

Notebook Examples — Jupyter Notebook 5.7.8 documentation

© Copyright 2015, Jupyter Team, https://jupyter.org Revision b8e30ea8.

jupyter-notebook.readthedocs.io

수학 Equation 쓰기

 

Motivating Examples — Jupyter Notebook 5.7.8 documentation

Display \(\begin{align} \nabla \times \vec{\mathbf{B}} -\, \frac1c\, \frac{\partial\vec{\mathbf{E}}}{\partial t} & = \frac{4\pi}{c}\vec{\mathbf{j}} \\ \nabla \cdot \vec{\mathbf{E}} & = 4 \pi \rho \\ \nabla \times \vec{\mathbf{E}}\, +\, \frac1c\, \frac{\par

jupyter-notebook.readthedocs.io

 

 

[Tensorflow]

기계학습과 딥러닝에 사용되는 모듈

 

인트로

 

TensorFlow 시작하기

TensorFlow 시작하기. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

튜토리얼 (한글문서)

 

머신러닝을 배우고 사용하기  |  TensorFlow Core  |  TensorFlow

이 문서들은 텐서플로 커뮤니티에서 번역했습니다. 커뮤니티 번역 활동의 특성상 정확한 번역과 최신 내용을 반영하기 위해 노력함에도 불구하고 공식 영문 문서의 내용과 일치하지 않을 수 있습니다. 이 번역에 개선할 부분이 있다면 tensorflow/docs 깃헙 저장소로 풀 리퀘스트를 보내주시기 바랍니다. 문서 번역이나 리뷰에 참여하려면 docs@tensorflow.org로 메일을 보내주시기 바랍니다. 이 노트북 파일들은 Deep Learning with Py

www.tensorflow.org

 

  • Pandas - 데이터 로드하기, 인코딩 지정하기 
    - melt, concat, pivot, transpose 과 같은 reshape 기능 
    - groupby, pivot_table, info, describe, value_counts 등을 통한 데이터 요약과 분석

  • Numpy - 데이터 타입에 대한 이해 
    - 기본적인 수치계산 활용

  • ggplot(Plotnine) - Python으로 Data Visualization 하기 
    - grammar of graphics 문법에 대한 기본적인 이해 
    - barplot, pointplot, boxplot 등 기본적인 시각화 방법에 대한 이해

  • Folium - OpenStreetMap을 통해 지도 데이터 활용하기 
    - 위경도 정보로 Marker, CircleMarker, GeoJSON을 활용하여 choropleth 그리기

 

'Machine Learning > Reference' 카테고리의 다른 글

Titanic Solution  (0) 2019.04.28

+ Recent posts