1장. 문자열을 사용한 작업 __토큰화 ____텍스트를 문장으로 토큰화 ____다양한 언어의 텍스트 토큰화 ____문장을 단어로 토큰화 ____TreebankWordTokenizer를 사용한 토큰화 ____정규 표현식을 사용한 토큰화 __정규화 ____문장 부호 제거 ____소문자와 대문자로 변환 ____불용어 처리 ____영어의 불용어 계산 __토큰의 대체 및 수정 ____정규 표현식을 사용한 단어 대체 ____텍스트를 다른 텍스트로 대체하는 예제 ____토큰화 전에 대체 수행 ____반복되는 문자 처리 ____반복 문자를 삭제하는 예제 ____단어를 동의어로 대체 ____단어를 동의어로 대체하는 예제 __텍스트에 지프의 법칙 적용 __유사 척도 ____편집 거리 알고리즘을 사용한 유사 척도 ____자카드 계수를 사용한 유사 척도 ____스미스 워터맨 거리를 사용한 유사 척도 적용 ____그 외 문자열 유사도 메트릭 __요약
2장. 통계 언어 모델링 __단어 빈도 이해 ____주어진 텍스트의 MLE 개발 ____은닉 마르코프 모델 추정 __MLE 모델의 스무딩 적용 ____에드온 스무딩 ____Good Turing ____크네저 네이 추정 ____위튼 벨 추정 __MLE의 백-오프 메커니즘 개발 __믹스 앤 매치를 얻기 위한 데이터 보간법 적용 __혼잡도를 통한 언어 모델 평가 __모델링 언어에서 메트로폴리스 헤이스팅스 적용 __언어 처리에서 깁스 샘플링 적용 __요약
3장. 형태학 ? 시작하기 __형태학 소개 __스테머 이해 __원형복원 이해 __비영어 언어의 스테머 개발 __형태소 분석기 __형태소 생성기 __검색 엔진 __요약
4장. 품사 태깅 - 단어 식별 __품사 태깅 소개 ____기본 태깅 __POS-tagged corpora 생성 __기계 학습 알고리즘 선택 __n-gram 접근법과 관련된 통계 모델링 __pos-tagged data를 사용한 청커 개발 __요약
5장. 파싱 - 훈련 데이터 분석 __파싱 소개 __트리뱅크 구성 __트리뱅크의 문맥 자유 문법 규칙 추출 __CFG에서 확률적 문맥 자유 문법 생성 __CYK 차트 파싱 알고리즘 __Earley 차트 파싱 알고리즘 __요약
6장. 의미 분석 - 본질 표현 __의미 분석 소개 ____NER 소개 ____은닉 마르코프 모델을 사용한 NER 시스템 ____기계 학습 툴킷을 사용한 NER 훈련 ____POS 태깅을 사용한 NER __Wordnet의 synset id 생성 __Wordnet을 사용한 의미 판별 __요약
7장. 감정 분석 - 나는 행복하다. __감정 분석 소개 ____NER를 사용한 감정 분석 ____기계 학습을 사용한 감정 분석 ____NER 시스템의 평가 __요약
8장. 정보 검색 - 정보 접속 __정보 검색 소개 ____불용어 제거 ____벡터 공간 모델을 사용한 정보 검색 __벡터 공간 스코링 및 질의 연산자 상호 작용 __잠재 의미 색인을 이용한 IR 시스템 개발 __텍스트 요약 __질의 응답 시스템 __요약
9장. 담화 분석 - 아는 것은 믿는 것이다. __담화 분석 소개 ____중심화 이론을 사용한 담화 분석 ____대용어복원 __요약
10장. NLP 시스템의 평가 - 성능 분석 __NLP 시스템 평가의 필요성 ____NLP 도구(POS 태거, 스테머, 형태소 분석기) 평가 ____골드 데이터를 사용한 파서 평가 __IR 시스템의 평가 __오류 식별 메트릭 __어휘 매칭 기반 메트릭 __구문 매칭 기반 메트릭 __얕은 의미 매칭을 사용한 메트릭 __요약