관련정보 보기

| 목차 | Close
들어가며

1장. 변수를 알면 분석모델을 디자인할 수 있다

데이터과학에서 왜 야구인가?
분석 공부 중도에 포기하지 않는 방법: 나만의 데이터 만들기
변수를 알아야 분석이 보인다
데이터 구조를 파악하다
여러분이 가지고 있는 변수의 특징
데이터는 조작되지 않아야 한다
데이터 분석의 완성: 데이터 밸류 체인
R 스튜디오와 친구들
패키지 없는 R은 앱 없는 스마트폰
정리하며

2장. 메이저리그 데이터 마이닝

마이닝의 개념
간단한 데이터 내 손으로 직접 만들기
데이터를 R로 불러올 때 알아두면 좋은 정보
인터넷에서 만난 팬그래프닷컴 데이터를 R로 불러오기
빅데이터에서 필요한 데이터 분리하기
작업했던 코딩과 데이터 정보 저장하기
순서가 같은 테이블 합치기: cbind( ) 그리고 rbind( )
순서가 다른 테이블 합치기: merge( )
양적 변수를 명목 변수로 바꾸기
괄호 사용법
결측값 제거하기
조건문 사용하기
계속 사용할 테이블 고정하기
추가로 공유하고 싶은 마이닝 기법들
정리하며

3장. 선수의 능력은 어떻게 측정할 것인가?

과학적 측정
측정의 신뢰도
영화 <머니볼>에서 보는 신뢰도가 높은 지표의 활용 케이스
측정의 타당도
능력과 운의 결과물: 시즌 성적
공격지표들을 이용한 상관관계
장타력과 득점의 상관관계
지도에 산포도를 그리다: R과 구글의 만남
선수와 감독의 인적 상관성: 네트워크 분석
기술통계와 추정통계의 매개: 히스토그램은 막대그래프가 아니다
히스토그램과 확률밀도함수가 만나다: 패키지 lattice
정리하며

4장. 상관관계는 인과관계가 아니다

인과관계의 필수조건
확률로 따지면 말이야
오류는 모델링의 꽃
확률과 우도
타석에서 안타를 1개만 칠 확률이 가장 높은 타율을 찾다: 최대우도추정법
정규분포: 얼마나 칠 것인가?
좋은 예측모델 구별법: 표준오차
팀타율 1푼의 가치는 2천 4백만 달러?
팀득점 예측을 위해 만든 추정모델 해석하기
모델 전체의 의미: F 통곗값
게임당 팀득점을 신뢰성 있게 예측하기
정리하며

5장. 비교와 구분

다른가?
시각적 비교
모델에 영향을 주는 이상치를 찾아라
메이저리그 140년 역사의 원동력: 표준편차의 힘
실험군은 아메리칸리그, 대조군은 내셔널리그
그룹 간 비교 시각화 방법: 패널차트
구글 트렌드와 분산분석(ANOVA) 연계
데이터를 분리해 필요한 부분만 취하다: 스트링 변수
비모수 시대의 그룹 간 비교
긍정오류와 부정오류
긍정오류, 부정오류, 그리고 판별분석
내셔널리그, 아메리칸리그, 그리고 판별분석
지구에서 우승할 가능성, 우승하지 못할 가능성: 로지스틱 회귀분석
지구에서 우승할 팀, 우승하지 못할 팀, 그리고 딥러닝
자율학습을 활용한 군집분석
정리하며

6장. 모델링

복잡한 현실을 수학으로 모델링하고 통계로 증명하다
2차함수 사고하기
고차함수 사고하기
논리와 데이터를 연결하다: 모델 선택
조건이 포함되는 모델링: 조절 변수
리그별 홈런의 관중 동원 효과: 리그의 조절효과
다수준혼합모델로 메이저리그 팀승수 추정하기
실험실 없이 실험환경 통제하기: 통제 변수
눈에 보이지 않는 교란요인들 잡아내기
단순선형모델, 임의효과모델, 고정효과모델의 비교
정리하며

맺음말
데이터과학을 대하는 자세
R을 대하면서 확장되는 생각의 범위
라만 데이터 적용 부분

찾아보기