-
Pyspark로 머신러닝 하기(1)_Project 소개Bigdata Management System 2019. 11. 19. 20:26
Pyspark로 머신러닝을 한다는 것은 쉽지 않은 일이다. 수업 시간에 Spark를 배웠고 실제 RDD를 사용해 데이터를 만져봤지만 머신러닝을 하는 것은 또다른 문제다. 리눅스 위에서 하둡과 스파크를 사용해 머신러닝을 한다는 것은 도전적인 일이 될 것이다. 하지만 데이터 사이언스 커리어를 놓고 봤을 때 큰 도움이 될 것이라 생각한다.
우리 팀의 project 목적은
1) review data 감성분석
2) 로컬 or 분산환경의 속도 비교
이다.
1)
Review data는 Kaggle competition에서 사용됐던 Airbnb review data이다.
우리는 데이터를 살펴보고
2)
'Bigdata Management System' 카테고리의 다른 글
Pyspark로 머신러닝 하기(2)_환경구축_hadoop설치 (3) 2019.11.19