Coding/확률통계

Probability & Statistic - Part.1

수코일지 2024. 3. 26. 08:32

Prob24_01_introduction

Population (모집단) - the collection of all outcomes
모든 결과, 응답, 측정값 또는 개수의 모음
N = 인구규모, 대문자로 나타냄

Sample (표본) - a subset of a population
인구의 부분집합
n = 표본의 크기, 소문자로 나타냄 

Parameter (모수) - numerical description of a population
인구의 수치적 특성을 나타냄 
ex. mean(평균), variance(분산), max value(최댓값)

Population -> Sample (Probability 확률)
Sample -> Population (Statistical Inference 통계) 작은 것들을 보고 큰 규모의 결과를 예측하는 것 

Proability (확률) - Properites of the population are assumed known. Answer based on these properties. 인구의 특정을 알려진 것으로 가정한 후 표본에 관한 질문에 대답

Statistics (통계) - Use the sample to draw a conclusion about the population. 포본의 정보를 사용하여 인구에 관한 결론을 도출

Descriptive statistics (기술통계) - the desciption, organization, and summarization of data. 데이터의 설명, 조직화, 요약에 관련된 통계의 분야
ex. Mean, Median, Sample range (Max-Min), Distribution

Inferential statistics (추론통계) -  draw conclutions avout a population. Sample을 사용하여 인구에 대한 결론을 도출하는 통계. 이 통계학의 기초도구는 확률
ex. conclusion

=> 기술통계는 데이터가 어떻게 분포되어 있는지 설명하고, 데이터셋 내에서의 패턴이나 중요한 특징을 요약하는 반면 추론통계는 표본 데이터를 사용하여 가설을 검증하고, 예측하거나 일반화하는 것. 결론을 내리는 것이다. 

Sample Mean (평균) - 다 더한 후 갯수로 나눠준다.

Sample Median (중간값) - 홀수일때, (n+1)/2 번째의 숫자이고 짝수일때, n/2 and n/2+1 번째의 숫자 

Sample Variance (표본분산) - 데이터 값들의 퍼짐 또는 변동성을 나타내는 지표. 표본분산이 크다는 것은 그래프 안에서 가로 축의 길이가 크다는 것. 각각의 데이터에서 평균을 뺀 뒤 제곱을 한것을 다 더한후 n-1로 나눈다. (n-1로 나누는 것은 자유도에 대한 보정을 위한 것으로, 표본분산을 더 정확하게 계산하기 위한 조정)

Sample range (표본범위) - 주어진 데이터 집합에서 최댓값과 최솟값 사이의 차이를 나타냄. 즉, 데이터의 전체 범위를 측정하는 지표. 

Stem-and-Lead Plot (줄기-잎 그림) - 데이터를 시각적으로 표현하는 방법. 주로 작은 규모의 데이터셋을 다룰 때 사용. 줄기 = 소수점 이전의 자릿수를 나타내고, 잎 = 소수점 이후의 자릿수를 나타냄

Frequency tables and graphs, Pie chart, Gruped data and histogram


Prob24_02_pro1

2.1 Sample Space

Sample Space (표본공간) - all possible outcomes 모든 가능한 결과들, S라고 표시

Sample Point - each outcome = element or a member of sample point 표본공간에 속하는 각 결과

Tree Diagram - 실험에서 발생 가능한 모든 결과들을 체계적으로 나열하는데 도움이 되는 도구.

Statement Method (설명법) - Sample point의 개수가 많거나 무한대인 표본공간은 설명이나 규칙으로 설명된다. 직접 나열하는 대신, 특정한 조건이나 속성에 따라 설명하는 방식. 주로 자연어나 문장을 사용하여 표현됨. 

Rule Method (규칙법) - 표본공간의 모든 요소를 직접 나열하는 대신, 특정한 규칙이나 패턴에 따라 표본공간을 정의하는 방식. 대개 수학적인 표현이나 조건을 사용한다. 

2.2 Event

Event - 확률적 실험에서 발생할 수 있는 결과들의 집합 중에서 특정한 부분집합을 나타냄.

Null Set (공집합) - 아무런 원소도 포함하지 않는 집합을 의미


Complement (여집합) - ex. 표본공간 S에 속하면서 사건 A에 속하지 않는 모든 원소들의 집합


Intersection (교집합) - A와 B에서 동시에 가지고 있는 원소들의 모임
A∩B

Mutually Exclusive or Disjoint - 두 개 이상의 집합이 공통된 원소를 가지고 있지 않는 경우를 말한다. 상호 배타적. 
A∩B=∅

Union (합집합) - 두 개 이상의 집합에 속하는 모든 원소들의 집합.
A∪B 

2.3 Counting Sample Points

Multiplication Rule (곱셈 규칙) - 두 개 이상의 독립적인 사건이 동시에 발생할 확률을 계산하는 방법. 두 사건의 개별확률을 곱하여 두 사건이 동시에 발생할 확률을 구함.
P(A∩B)=P(A)×P(B)

Generalized Multiplication Rule (일반화된 곱셈 규칙) - 두 개 이상의 사건이 서로 독립이 아닌 경우에도 해당사건들이 동시에 발생하는 확률을계산하는 방법. 

P(A∩B)=P(A∣B)×P(B)
P(A∩B∩C)=P(A∣B∩C)×P(B∣C)×P(C)

Permutation (순열) - 주어진 요소드릉ㄹ 나열하는 모든 가능한 방법의 수
P(n,r)= n!/(n−r)!

A,B,C를 나열하는 경우의 수에서 AB와 BA는 다른 경우의 수로 취급

Circular Permutations (원순열) - 원형의 구조를 가진 요소들을 나열하는 경우의 수. 상대적인 순서가 중요하며, 한 요소의 시작점이 다른요소의 시작점과 동일한 경우 같은 순열로 간주. 

P(n) = (n-1)!

n-1을 하는 것은 시작점을 고정시키고 각 요소를 회전시켜 같은 순열을 생성하기 위한 것.

중복순열 - 

Partition (파티션) - 주어진 집합을 부분집합들의 합으로 분할 하는 것을 의미. 
ex. n개의 서로 다른 객체를 r개의 부분 집합으로 나누는 방법. 
공식 사진 붙이기!

Combination (조합) - 주어진 집합에서 순서 관계없이 r개의 객체를 선택하는 방법의 수

C(n,r)


2.4 Probability of an Event

Probability - 0<= P(A) <= 1

포커 카드 구성

4가지의 문양이 13개씩 있다. 

스페이스, 다이아, 하트, 클로바

총 52개의 카드가 있다. 

2~10까지 9개, JQKA 이렇게 4개 => 13개씩!

트럼프카드는 조커카드 2개이다. 

2.5 Additive Rules

Additive Rules (가법 규칙) - 다른 사건의 확률을 알고 있을때 어떤 사건의 확률을 계산하는 가장 쉬운 방법

1) 합집합의 가법 규칙 : P(A∪B)=P(A)+P(B)−P(A∩B)
2) 배반적인 사건(Mutually exclusive or disjoint)의 가법 규칙 : P(A∪B)=P(A)+P(B)

2.6 Conditional Probability, Independence, and the Product Rule

Conditional Probability (조건부 확률) - 어떤 사건이 발생했을 때 다른 사건이 발생할 확률
the probability of A, given B (B가 주어졌을 떄 A가 발생할 확률)

P(A|B) = P(A∩B)/ P(A)
= B가 발생한 조건 하에서 A가 발생할 확률

Multiplicative Rule (or Product Rule 곱셈법칙) - 두 사건이 동시에 발생할 확률 (독립적이지 않을 경우) P(A) > 0
P(A∩B) = P(B∩A) = P(A)×P(B∣A)

- 독립적일 경우 두 사건이 동시에 발생할 확률
P(A∩B) = P(A)P(B)

Independent Events (독립사건) - 한 사건이 발생해도 다른 사건의 발생 확률에 영향을 미치지 않음
P(B∣A) = P(B)
P(A|B) = P(A)

독립사건의 중요한 특성 중 하나 - 각각의 사건의 확률을 곱하여 두 사건이 동시에 발생할 확률을 계산할 수 있음
P(A∩B)=P(A)×P(B)

2.6 Bayes' Formula

찾아서 정리하기


3.1 Concept of a Random Variable

Random Variable (랜덤 변수) - 무작위 실험의 각 결과를 실수로 대응시키는 함수

Discrete sample space (이산적 샘플 공간) - 유한한 결과를 가지는 실험. 각 결과 사이에 뚜렷한 간격이 존재하며 이를 통해 개별적으로 계산될 수 있음. Randome Variable과 연관이 있다. 
ex. 동전 던지기, 주사위 던지기

Continuous sample space (연속적 샘플 공간) - 무한한 범위에서 결과를 가지는 실험. 결과 사이에 연속적인 범위가 있으며 뚜렷한 간격으로 분포되어 있지 않음.

3.2 Discrete Probability Distributions

Proability mass function (PMF, 확률질량함수) - Discrete 랜덤 변수에 대한 확률을 정의하는 함수. 특정 값을 가질 확률을 나타내며, 각 값에 대한 확률을 할당. 각 값에 대한 확률을 모두 0이상이며, 모든 값에 대한 확률의 합은 1. 
ex. 예를 들어, 동전을 두 번 던져 앞면이 나오는 횟수를 나타내는 이산형 랜덤 변수 X를 고려해 봅시다. 이때 X가 가질 수 있는 가능한 값들과 그에 대응하는 확률을 나타내는 것이 PMF입니다.

예를 들어, X가 0, 1, 2의 값을 가질 수 있다면, 각 값에 대한 확률을 나타내는 PMF는 다음과 같을 수 있습니다:

P(X=0) = 0.25
P(X=1) = 0.5
P(X=2) = 0.25

Cumulative Distribution function (CDF, 이산형랜덤변수) - 해당 변수가 특정 값 이하일 확률을 나타내는 함수. F(x)는 x가 증가함에 따라 증가한다. 확률질량함수를 사용하여 정의됨.