
1. 빅데이터 처리와 Spark 소개(빅데이터 정의, 하둡 이론 등)
1. 빅데이터 정의와 예 빅데이터의 정의 (1) 빅데이터의 정의 1 서버 한대로 처리할 수 없는 규모의 데이터 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저가 내린 정의 분산 환경이 필요하느냐에 포커스 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? (2) 빅데이터의 정의 2 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두하지 않음 Scale-Up 접근 방식(vs. Scale-out) 메모리 추가, CPU 추가, 디스크 추가 (3) 빅데이터의 정의 3 4V(Volume, Velocity, Variety, Varecity) Volume :..