Bigdata Management System
-
Pyspark로 머신러닝 하기(2)_환경구축_hadoop설치Bigdata Management System 2019. 11. 19. 22:18
Hadoop과 Spark는 Linux 환경에서 구동하기에 적합하다. Linux는 크게 Redhat 계열과 Debian 계열이 있다. 보통 서버용으로 Redhat 계열의 CentOS를 많이 사용하는데 빅데이터관리시스템 과목에서 CentOS 6를 계속 써왔기에 우리는 CentOS 7버전을 선택했다. Ubuntu도 다루기 쉽고 인기있는 OS이지만 앞으로 현업에서 사용 가능성이 높은 CentOS를 쓰기로 결정했다. 분석환경은 이렇다. 1. OS : CentOS Linux 7 2. Java : 3. Python : 3.6 (Anaconda 5.2) 4. Apache Spark : 2.3.2 5. Hadoop : 2.7 5. Hadoop 설치 원래는 hadoop user를 따로 만들어서 hadoop을 설치하는게 좋..
-
Pyspark로 머신러닝 하기(1)_Project 소개Bigdata Management System 2019. 11. 19. 20:26
Pyspark로 머신러닝을 한다는 것은 쉽지 않은 일이다. 수업 시간에 Spark를 배웠고 실제 RDD를 사용해 데이터를 만져봤지만 머신러닝을 하는 것은 또다른 문제다. 리눅스 위에서 하둡과 스파크를 사용해 머신러닝을 한다는 것은 도전적인 일이 될 것이다. 하지만 데이터 사이언스 커리어를 놓고 봤을 때 큰 도움이 될 것이라 생각한다. 우리 팀의 project 목적은 1) review data 감성분석 2) 로컬 or 분산환경의 속도 비교 이다. 1) Review data는 Kaggle competition에서 사용됐던 Airbnb review data이다. 우리는 데이터를 살펴보고 2)