통계/기초통계17 [통계] [기초통계] Z검정 p-value 이걸로 다 알려줌. 귀무가설 : 지금까지 사실로 알려져 있는 모수에 관한 정보로 설정 대립가설 : 표본자료로부터 강력한 증거에 의해 입증하고자 하는 가설. 무죄 추정의 원칙. 확률표본의 함수인 통계량이 가설검정에 활용되면 이를 "검정통계량" 이라고 한다. 즉 뮤에대한 검정을 한다면 엑스바가 검정통계량 유의확률 귀무가설이 사실인 경우의 검정통계량 Z의 분포에서 대립가설의 방향으로 검정통계량의 관찰값 보다 더 극단적인 값이 나올 확률, 표본 뽑았더니 이게 완전 아니야~ 그래서 귀무 기각 2024. 1. 24. [통계] [기초통계] 표본비율과 모비율 설명 [통계] [기초통계] 표본비율과 모비율 설명 01. 표본비율과 모비율을 시작하며... 단원의 마지막에 나오는 내용이라…기본 개념에 대한 이해 부족과 연습 부족으로 조금 어렵게 생각하지만 기본적인 개념에 대해서 재대로 이해를 한다면 크게 부담되지 않는 부분입니다. 기본 개념에 대한 정확한 이해를 목표로 해서 포스팅을 하고자 합니다. 주요내용 01 모비율의 의미 02 표본비율과 평균,분산,표준편차 03 모비율의 추정 02. 모비율의 의미 모비율(population ratio): 모집단이 어떤 특성을 가지는 비율 기호: p 처음 정의를 보고 나면… 이게 무슨 말인지… 아무리 수학적 정의라지만 이해하기 쉽게 해주면 안되나 생각이 드네요 의미를 예를 들어 설명하면 주사위에서 1의 눈이 나올 비율(확률) : 1/6.. 2024. 1. 20. [통계] [기초통계] 모비율 문제풀이 [통계] [기초통계] 모비율 문제풀이 예제 (출처 : 개념원리) 어느 도시에서는 차량의 40%가 GPS를 부착했다고 한다. 이 도시에서 차량 96대를 임의추출할 때, 48대 이상이 GPS를 부착한 차량일 확률을 오른쪽 표준정규분포표를 이용하여 구하라. --- * 경고 : 이하 적힌 것들은 식 빼곤 모두 내 생각으로, 정확하지 않을 확률이 높음. 레포트 쓰는데 참고하지 마시오. 모집단도, 표본도 이항분포 B(n,p)를 따른다고 생각하자. (모집단도, 표본도 크기가 매우 크다고 가정) 1) X : 모집단의 확률변수 x : 표본의 확률변수 2) 이항분포 B(n,p) 어떤 사건 A가 일어날 확률 : p 어떤 사건 A가 일어나는 횟수 : X 평균 : np 분산 : npq (q=1-p) [ 확률변수 X가 이항분포 .. 2024. 1. 20. [통계] [기초통계] 상관계수 구하기 [통계] [기초통계] 상관계수 구하기 이전 글에서 상관분석은 점들이 모여 있는 밀도를 표현하기 위해서 수치를 사용하는데, 이 수치가 곧 상관계수라고 했었다. 그럼 상관계수 구하는 법을 알아보면, 일단 두 변수가 서로 상관관계가 있을 때, 점들이 퍼져있는 모습을 보면 일정한 패턴에 모여있다는 것을 알 수 있다. 그런데 점들이 일정한 패턴에 모여 있기는 하지만, 각각 어느 정도의 치우침은 발생한다. 그래서 해당 치우침을 활용하면 상관계수를 구할 수 있는데, 통계에서 치우침을 나타내는 대표적인 척도가 “분산”이다. 그래서 분산을 활용해서 상관계수를 구하는데, 구하는 공식은 아래와 같다. 그럼 공식의 분자를 보통 “공분산”이라고 부르는데, 공분산에 대해서 알아보자. 일단 상관분석은 기본적으로 변수가 2개이기에,.. 2024. 1. 20. [통계] [기초통계] [포아송 분포] https://angeloyeo.github.io/2021/04/26/Poisson_distribution.html 포아송 분포 - 공돌이의 수학정리노트 (Angelo's Math Notes) angeloyeo.github.io 참조 좋은 사이트 https://m.blog.naver.com/mykepzzang/220840724901 확률분포(2): 포아송 분포 이산확률분포에서는 이항분포 다음으로 포아송 분포(Poisson distribution)가 중요하다. 포아송 분포는 단위 시간이나 단위 공간에서 무작위로 발생하는 사건의 발생횟수에 적용되는 분포이다. 포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 확률변수 X가 포아송 분포를 .. 2024. 1. 19. [통계] [기초통계] 1. 표본과 표본평균 모집단으로부터 무작위로 n개의 표본을 추출했을 때, 이 n개 표본들의 평균과 분산을 각각 '표본평균(sample mean)', '표본분산(sample variance)'라고 합니다. 무작위 표본(random sample)은 다음과 같은 가정을 가집니다. 그럼 표본평균부터 알아보죠. 표본평균은 직관적으로 알 수 있습니다. 이제 표본분산을 알아보려고 합니다. 분산은 편차의 제곱의 기댓값이죠. 이제 표본평균을 새로운 확률변수라고 생각해 봅시다. 그럼 여기서 표본평균의 평균과 분산을 또 구할 수 있겠죠. ※ 표본평균을 구했는데 어떻게 표본평균을 새로운 확률변수라 생각하고 평균과 분산을 구하냐는 댓글이 있어 추가로 설명합니다. 한 가지 예를 들어보죠. 대한민국 남성의 평균 신장을 구하려고 합니다. 하지만.. 2024. 1. 19. [통계] [기초통계] Z test 설명 [통계] [기초통계] Z test 설명 https://blog.naver.com/oooasd73/221610919338 #8. 심리통계 Z검정(Z test), T검정(T test) 안녕하세요. 두두의 심리블로그 '두두'입니다. 심리통계 8번째 시간에는 Z검정과 T검정을 다뤄... blog.naver.com 1. Z검정(Z-test) 1. 단일표본 Z검정 Z검정에서 처음 다룰 것은 단일표본 Z검정입니다. 우선, Z검정은 Z분포를 가지고 모집단의 통계치와, 나(연구자)의 통계치를 비교하는 방법입니다. 이를 비교하기 위해선 표준정규분포를 이용하여 가설을 검증합니다. 지난 정규분포와 표준정규분포에서 Z값에 대해 다루었는데, 기억이 안 나신다면 그 포스팅을 참고해주세요. 단일표본 Z검정은 말 그대로 표본이 1.. 2024. 1. 19. [통계] [기초통계] 왜도 skewness 설명 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이터가 적당히 치우쳐있다. 2 < |skew| : 데이터가 상당히 치우쳐있다. 분포가 평균을 중심으로 대칭을 이루는 분포는 가우시안 분포라고도 하는데 skew가 없는 데이터는 모수적 통계에 유리합니다. 예를.. 2024. 1. 19. [통계] [기초통계] 5. 신뢰구간 설명 신뢰 구간의 의미 통계학 2021년 01월 05일 일상 생활에서도 종종 사용되는 신뢰 구간의 예시 신뢰 구간은 처음 보기에 복잡해 보이는 개념이지만, 일상에서도 많이 쓰고 있는 것이기도 하다. 가령, 버스를 타고 집에가는 길에 “언제쯤 도착이야?”라는 카톡에 대한 답변으로 “10-15분 정도 걸릴 것 같아”라고 답변했다면, 우리는 10에서 15사이라는 신뢰구간을 사용하고 있는 것이다. 10에서 15사이라는 값은 지금까지 내가 여러번 이 버스를 타봤을 때 걸리는 시간의 평균값으로부터 얻어졌을 것이다. 그럼 왜 12.5분이라는 정확한 값을 말하지 않고 “10-15분 정도 걸린다”라고 말할까? 그것은 불확실성이 내포되어 있기 때문일 .. 2024. 1. 19. [통계] [기초통계] 4. 정규분포 문제풀이 [통계] [기초통계] 정규분포 문제풀이 먼저 이항분포 같은 이산확률분포는 확률을 구할 때 성공횟수와 실패횟수처럼 “횟수”를 사용하기에, “이하”와 “미만”이 서로 다르고 “이상”과 “초과”가 서로 다르다. 하지만 정규분포 같은 연속확률분포는 확률을 구할 때 “횟수”를 사용하지 않아서, “이하”와 “미만” 그리고 “이상”과 “초과”가 별 차이 없다.(연속확률분포는 그래프의 구간이 중요할 뿐, 횟수는 중요하지 않다) 그래서 아무거나 사용해도 되는데, 단지 “이하”와 “이상”이 더 익숙하기에, 보통 “이하”와 “이상”을 주로 사용한다.(부등호도 마찬가지다) 1. 어느 회사에서 종업원들의 근무기간을 조사하였는데, 종업원들의 근무기간은 평균이 11년이고 표준편차가 4년인 정규분포를.. 2024. 1. 19. [통계] [기초통계] 왜도 skewness 설명 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이터가 적당히 치우쳐있다. 2 < |skew| : 데이터가 상당히 치우쳐있다. 분포가 평균을 중심으로 대칭을 이루는 분포는 가우시안 분포라고도 하는데 skew가 없는 데이터는 모수적 통계에 유리합니다. 예를.. 2024. 1. 19. [통계] [기초통계] 공분산과 상관관계 Covariance(공분산) 공분산은 두 변수가 변화할 때 어떤 연관성이 있는지를 나타내는 척도이다. => 한 변수가 변했을 때 다른 변수의 변화량에 얼마나 영향을 주는가? (ex: BMI지수와 성인병의 발병률은 어떤 연관성이 있는가?) 분산V= Sigma( (X-E)^2 ) / N= E((X- E(X))^2) 공분산Cov= E( (X-E(X) * (Y-E(Y)) ) 공분산은 각 변수가 각 평균에서 떨어진 만큼의 거리의 평균을 의미한다. 공분산 값(양수/음수)에 따라 어떤 연관성이 있는지를 알아낼 수 있다. 위와 같이 cov가 양수이면 X가 증가할 때 Y도 증가하고, cov가 음수이면 X가 증가할 때 Y는 감소하는 양상을 띈다. 그러나 cov의 절대값이 큰 것이 연관관계가 크다는 것을 의미하지는 않는다는.. 2024. 1. 19. 이전 1 2 다음