DSC2018 - CDAL

1. Online Test

Problem Edited :

Problem link : https://www.kaggle.com/annavictoria/speed-dating-experiment/home
Dataset : https://www.kaggle.com/annavictoria/speed-dating-experiment#Speed%20Dating%20Data.csv
train : wave 1 ~ 15
test : wave 16 ~ 21
Baseline : https://www.kaggle.com/jph84562/the-ugly-truth-of-people-decisions-in-speed-dating

Story line

Introduction
- Speed date dataset 선정 동기
  - 짧은 대화만으로 마음에 드는 이성을 찾기 힘들다는 문제를 해결하기 위해서 간단한 설문 항목을 참고하여 이를 해결하고자 함.
- dataset 설명
  - 2002~2004년동안 21 차례에 거친 speed dating 실험을 한 결과. 각각의 실험자는 상대 성별의 모든 상대들과 데이트를 4분간 진행한다. 해당 dataset은 데이트 이전과 이후의 설문 문항에 대한 대답으로 이루어져있다.
- dataset 분석
  - 인기있는 speed dating 상대가 되기위한 조건은 무엇인지, 성별에 따라서 speed dating에서 고려되는 요소가 달라지는지와 같은 observational study를 진행한다.
- 문제 제기 :
```
( 나에 대한 평가 없이 ) 상대방이 나를 마음에 들어하는지 여부를 예측
```
가설 제시
- 상대방이 나를 마음에 들어했던 date 중 상대방이 비중을 두는 요소 (attractive, sincere, intelligence, funny, ambitious, shared interests ) 와 내가 나를 평가한 점수에 대한 관계
- 내가 나를 평가한 점수(요소)와 상대가 나를 평가한 점수(요소_partner)에 대한 관계
- 상대가 나를 평가한 점수(요소_partner)와 상대가 나를 마음에 들어했는지(decision_o)에 대한 관계
- a
해결 방안
- dataset preprocessing
  - 사용한 변수
  - null 데이터 처리 (train/test : 6428 / 1950 -> 5028 / 1572)
  - train/test 분리
- 학습 모델
  - blending, ensemble
  - Logistic, Randomforest, ANN classifier
  - crossvalidation
- 학습 목표
```
  speed date 이후 상대방에 대한 나의 평가를 이용해 상대방이 나를 마음에 들어하는지 여부 예측
```

결과 (다같이)

accuracy 비교

wonsuk

Mean Accuracy Result (w/o opponent's score data) for decision_o

Model	w/o Scaler	StandardScaler	MinMaxScaler	QuantileTransformer	PowerTransformer
KNN(k=8)	54.4	58.9	57.1	56.2	57.2
LR	59.7	59.3	59.5	58.5	60.1
Linear SVM	43.7	60.1	60.1	58.8	59.9
RBF SVM	56.8	58.4	59.4	59.4	57.4
DecisionTree	58.0	55.9	56.0	55.2	57.1
RF	58.6	57.6	57.8	57.6	56.8
MLP(5,2)	57.3	60.6	59.3	59.3	58.7
AdaBoost	56.0	56.6	57.3	57.9	56.0
GaussianNB	58.1	57.7	57.2	59.3	59.1
QDA	56.6	56.5	57.1	57.8	56.6

Mean Accuracy Result (w/ opponent's score data) for decision_o

Model	w/o Scaler	StandardScaler	MinMaxScaler	QuantileTransformer	PowerTransformer
KNN(k=8)	54.8	57.0	58.0	54.6	56.7
LR	59.5	60.2	60.1	59.0	59.7
Linear SVM	57.8	59.5	60.0	58.9	60.2
RBF SVM	57.4	58.4	58.6	59.8	58.3
DecisionTree	56.6	57.6	56.9	57.6	57.6
RF	58.9	57.6	57.8	58.0	56.9
MLP(5,2)	57.3	58.0	58.6	59.7	57.1
AdaBoost	55.9	57.3	57.5	58.0	58.2
GaussianNB	57.5	57.8	56.5	58.8	58.5
QDA	56.2	56.2	56.2	57.3	57.4

"Linear Regression", "LAsso", "Ridge", "SGDRegressor", "RandomForestRegressor", "MLPRegressor"

RMSE Result (w/o opponent's score data) for like_o

Model	w/o Scaler	StandardScaler	MinMaxScaler	QuantileTransformer	PowerTransformer
Linear Regression	1.82	1.82	1.82	1.81	1.81
LAsso	1.83	1.83	1.83	1.83	1.83
Ridge	1.82	1.82	1.83	1.81	1.81
SGDRegressor	N/A	1.82	1.85	1.81	1.80
RandomForest	1.94	1.99	2.36	1.96	1.95
MLP(5,2)	1.82	1.83	2.10	1.81	1.81

RMSE Result (w/ opponent's score data) for like_o

Model	w/o Scaler	StandardScaler	MinMaxScaler	QuantileTransformer	PowerTransformer
Linear Regression	1.17	1.82	1.82	1.81	1.81
LAsso	1.27	1.83	1.83	1.83	1.83
Ridge	1.17	1.82	1.83	1.81	1.81
SGDRegressor	N/A	1.82	1.85	1.81	1.80
RandomForest	1.27	1.99	2.36	1.96	1.95
MLP(5,2)	1.17	1.83	2.10	1.81	1.81

5 결론

- 설문 정보를 바탕으로 상대가 나를 얼만큼 마음에 들어하는지를 예측할 수 있었다.

- 모델에 적용하는 변수를 제거할수록 성능이 낮아졌으며, 상대의 평가 수치를 제외하면 예측하기가 어려워졌다.

- 실제로 적용하기엔 개선해야할 부분이 남아있다.

Name		Name	Last commit message	Last commit date
Latest commit History 102 Commits
WDBC		WDBC
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DSC2018 - CDAL

1. Online Test

Problem Edited :

Story line

Mean Accuracy Result (w/o opponent's score data) for decision_o

Mean Accuracy Result (w/ opponent's score data) for decision_o

RMSE Result (w/o opponent's score data) for like_o

RMSE Result (w/ opponent's score data) for like_o

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DSC2018 - CDAL

1. Online Test

Problem Edited :

Story line

Mean Accuracy Result (w/o opponent's score data) for decision_o

Mean Accuracy Result (w/ opponent's score data) for decision_o

RMSE Result (w/o opponent's score data) for like_o

RMSE Result (w/ opponent's score data) for like_o

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages