하둡

데이터 엔지니어링/Spark

1. 빅데이터 처리와 Spark 소개(빅데이터 정의, 하둡 이론 등)

1. 빅데이터 정의와 예 빅데이터의 정의 (1) 빅데이터의 정의 1 서버 한대로 처리할 수 없는 규모의 데이터 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저가 내린 정의 분산 환경이 필요하느냐에 포커스 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? (2) 빅데이터의 정의 2 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두하지 않음 Scale-Up 접근 방식(vs. Scale-out) 메모리 추가, CPU 추가, 디스크 추가 (3) 빅데이터의 정의 3 4V(Volume, Velocity, Variety, Varecity) Volume :..

데이터 엔지니어링/분산처리

[HADOOP] 분산환경에 HADOOP 설치하기

https://dataengineerstudy.tistory.com/159 [LINUX] 로컬 환경에서 분산처리 환경 구축하기2 앞선 포스팅을 따라오셨다면, 총 4개의 서버를 돌리고 계실겁니다. hadoop-name hadoop-data1 hadoop-data2 hadoop-data3 이번 포스팅에선 4개의 서버에서 하둡을 설치하기 위한 기초 작업들을 해보겠습니다. 1. dataengineerstudy.tistory.com 앞선 포스팅을 따라오셨다면, 네 개의 서버를 모두 켜놓고 진행해주세요! 1. JAVA설치(모든 노드에서 진행) Java ppa APT 추가 sudo add-apt-repository ppa:openjdk-r/ppa [Enter] 입력 텍스트가 출력되면 키보드의 엔터키 입력 패키지 업데..

데이터 엔지니어링/분산처리

[LINUX] 로컬 환경에서 분산처리 환경 구축하기2

https://dataengineerstudy.tistory.com/159 [LINUX] 로컬 환경에서 분산처리 환경 구축하기2 앞선 포스팅을 따라오셨다면, 총 4개의 서버를 돌리고 계실겁니다. hadoop-name hadoop-data1 hadoop-data2 hadoop-data3 이번 포스팅에선 4개의 서버에서 하둡을 설치하기 위한 기초 작업들을 해보겠습니다. 1. dataengineerstudy.tistory.com 앞선 포스팅을 따라오셨다면, 총 4개의 서버를 돌리고 계실겁니다. hadoop-name hadoop-data1 hadoop-data2 hadoop-data3 이번 포스팅에선 4개의 서버에서 하둡을 설치하기 위한 기초 작업들을 해보겠습니다. 1. UBUNTU 설치 및 환경 설정(모든 노..

우상욱
'하둡' 태그의 글 목록