'데이터엔지니어링' 태그의 글 목록

데이터엔지니어링 관련 질문 모음집(20230512)

2023.05.12

(1) PIG랑 HIVE, SPARK은 결국에 비슷한 기술 같은데 용도가 다른 점이 있을까요? PIG, HIVE는 디스크 기반 분산 처리 프레임워크기 때문에, 속도가 느리더라도 한번에 큰 파일을 다룰 수 있다는 점에서 적합합니다. 하지만 SPARK은 가공하려는 데이터를 메모리 위로 올려서 가공하기 때문에, 엄청나게 큰 파일을 가공하는데에는 한계가 있습니다. 따라서 큰 조직의 회사에서는 SPARK을 스트림 처리를 위해 사용하고, PIG, HIVE는 배치 처리를 위해 사용합니다. 물론 날마다 쌓이거나 하는 데이터의 크기가 SPARK으로 감당이 된다면, SPARK을 통해서 처리할 수도 있습니다. (2) HDFS에 있는 데이터를 처리해서, RDB 혹은 NOSQL로 계속 적재하면 DB에 결국 DB에 부하가 올 것..

웹 애플리케이션/Django(장고)

[DJANGO] SPOTIFY API로 음악 추천 웹 개발하기1(AWS RDS)

2023.04.25

이번 미니 프로젝트는 SPOTIFY API 데이터로 음악 추천 웹을 개발하는 프로젝트입니다! 프로젝트 기간으로 주어진 5일 간은 웹에 집중하고, 이후엔 데이터 파이프라인을 체계적으로 구축해보려고 합니다. 지금은 프로젝트 기간 2일이 지난 상태고, 앞서 진행했던 SPOTIFY API 사용, 데이터 베이스 설계, AWS RDS 연동, 그리고 DJANGO의 간단한 검색 기능 구현 과정을 담은 포스팅입니다! SPOTIFY API 먼저 SPOTFIY API를 활용해서, 데이터를 받아오는 과정이 있었습니다. SPOTIFY DEVELOPERS에서 가입을 한 후에 KEY를 통해 데이터를 받을 수 있습니다. 다만, 토큰이 일정 시간이 지나면 초기화되고, 너무 많은 요청이 있을 때는 몇 분정도 기다려야하는 단점이 있습니다..

데이터 엔지니어링/데이터베이스 및 운영체제

데이터베이스 프로그래밍(PL/SQL)

2023.03.24

1. PL/SQL Procedural Language/Structured Query Language의 줄임말로 데이터베이스 응용 프로그램을 작성하는 데 사용하는 오라클의 SQL 전용 언어. SQL 전용 언어로 SQL 문에 변수, 제어, 입출력 등의 프로그래밍 기능을 추가하여 SQL 만으로 처리하기 어려운 문제를 해결함. PL/SQL은 SQL Developer에서 바로 작성하고 컴파일한 후 결과를 실행함 파이썬, 자바로 DB 데이터를 뽑아서도 가능하나 확실히 속도가 빠르다. 2. 프로시저 리턴 값이 없음, 리턴 값이 있으면 함수 2.(1) 삽입 작업 프로시저 프로시저로 데이터를 삽입 작업을 하면 좀 더 복잡한 조건의 삽입 작업을 인자 값만 바꾸어 수행할 수도 있고, 저장해두었다가 필요할 때마다 호출하여 사..

데이터엔지니어링 관련 질문 모음집(20230512)

[DJANGO] SPOTIFY API로 음악 추천 웹 개발하기1(AWS RDS)

데이터베이스 프로그래밍(PL/SQL)

티스토리툴바