데이터 엔지니어링/하둡 에코 시스템

데이터 엔지니어링/하둡 에코 시스템

[MongoDB]pymongo로 간단한 프로그램 만들기

오늘은 pymongo의 CRUD를 활용해서, 가벼운 프로그램을 만들어보겠습니다! 1. MONGO DB CONNECTION from pymongo import MongoClient import pandas as pd from tabulate import tabulate from bson.objectid import ObjectId def connect_mongodb(): client = MongoClient("mongodb://localhost:27017") mydb = client["signup"] mycoll = mydb["userinfo"] return mycoll Mongo DB에 연결합니다. 저는 database는 signup, collection으로는 userinfo를 사용했습니다. 2. 회원 ..

데이터 엔지니어링/하둡 에코 시스템

[MONGODB] 몽고DB 로컬에 설치하고 파이썬 연동하기

안녕하세요. 오늘은 MongoDB를 로컬에 설치하고, 파이썬에 연동해보겠습니다! https://www.mongodb.com/try/download/community Try MongoDB Community Edition Try MongoDB Community Edition on premise non-relational database including the Community Server and Community Kubernetes Operator for your next big project! www.mongodb.com 먼저 해당 사이트에 접속해서, 하단으로 내리시다보면 다운로드 받는 곳이 있습니다. 버전과 플랫폼을 확인 후 msi 형태로 다운로드 받아줍니다. 1. MONGO DB 로컬 설치 (1) 설..

데이터 엔지니어링/하둡 에코 시스템

[HIVE] 기본 개념 및 실습

안녕하세요! 오늘은 PIG에 이어서, HIVE에 대해 알아보도록 하겠습니다. HIVE Hive는 하둡에서 데이터를 처리하기 위한 데이터 웨어하우징 솔루션 중 하나입니다. Hive는 SQL을 사용하여 대규모 데이터 집합을 분석할 수 있도록 해주는 데이터 웨어하우스 솔루션입니다. Hive는 하둡 기반의 분산 데이터 저장소에서 SQL 쿼리를 실행할 수 있도록 해주는 인터페이스를 제공합니다. Hive는 HiveQL이라는 SQL과 비슷한 언어를 사용하여 데이터에 대한 쿼리 및 분석을 수행합니다. HiveQL은 기존의 SQL과 유사하며, 사용자는 대부분의 경우 HiveQL을 배우기 쉽습니다. 또한 HiveQL은 사용자가 쉽게 커스텀 함수와 집계 함수를 정의하고 사용할 수 있도록 해줍니다. Hive는 맵리듀스와 같은..

데이터 엔지니어링/하둡 에코 시스템

[PIG] 기본 개념 및 실습

PIG Pig는 대규모 데이터 처리를 위한 분산형 쿼리 언어 및 실행 환경입니다. Pig는 Hadoop에서 실행되며, Hadoop 클러스터 내에서 대규모 데이터 집합을 처리하는 데 사용됩니다. Pig는 구조화되지 않은 데이터를 처리하는 데 적합한 언어로, 데이터를 표현하는 방식이 일반적인 행-열 구조가 아니더라도 데이터를 처리할 수 있습니다. Pig는 SQL과 유사한 구문을 제공하며, 사용자는 SQL과 유사한 방식으로 데이터를 처리할 수 있습니다. Pig는 다양한 데이터 소스 (예 : HDFS, HBase, Amazon S3 등)에서 데이터를 읽어들이고, 이를 다양한 대상 (예 : HDFS, HBase, Relational Databases 등)으로 쓸 수 있습니다. Pig는 스크립트로 작성되며, 이를 ..

데이터 엔지니어링/하둡 에코 시스템

[Flume] 기본 개념 및 설치

Flume(with Kafka) Flume은 대규모 데이터 처리를 위한 분산형 데이터 수집 도구입니다. Flume은 데이터를 수집하고 처리하여 저장소 또는 전송 수단으로 전송합니다. Flume은 다양한 데이터 소스 (예 : 로그 파일, 소켓 등)에서 데이터를 수집하고, 이를 다양한 대상 (예 : HDFS, Kafka 등)으로 전송할 수 있습니다. Flume은 이러한 과정에서 데이터를 중간 단계에서 필터링하거나 변환할 수도 있습니다. Flume은 Kafka와 자주 사용됩니다. Kafka는 분산형 스트리밍 플랫폼으로, 대용량 실시간 데이터 스트리밍 및 처리에 사용됩니다. Kafka는 대규모의 메시지를 안정적이고 신뢰성 높은 방식으로 처리하며, 다양한 데이터 소스에서 데이터를 수집하고 다양한 대상으로 전송할 ..

우상욱
'데이터 엔지니어링/하둡 에코 시스템' 카테고리의 글 목록