일기

일기

2023년 회고록, 2024년은

이번년도에는 원하는 직업이 본격적으로 생겼고, 제 생각보다 짧은 시간에 원하는 일을 이뤘습니다. 이 블로그를 이번년도 초에 개설한 걸로 기억하는데, 이제 일년이 다 되어가네요. 얼마 전쯤에 누적 방문 수가 1만회를 넘은 걸로 알고 있습니다. 뿌듯하기도 하지만, 이제 블로그를 옮기려고 합니다. 제 메모장처럼 작성하는 블로그인데, 마크다운이 지원이 잘 되지 않다보니, 작성할 때 생산성(?)에 문제가 생기는 기분이 들었다랄까요...? 무언가 스터디를 위한 제 메모장에 변화가 필요한 시기가 온 것 같습니다. 2023년 한 해는 크게 두 갈래로 나눌 수 있을 것 같습니다. 제가 데이터엔지니어가 되기 위해서, 학원을 등록하고 프로젝트를 했던 시간과 회사에서 기술로 비즈니스에 기여하게 된 시기입니다. 학원에 있던 시..

일기

2023년 11월 회고록같은 자기반성

사실 어떤 고급스러운 말이나, 교양 있게 저를 표현하는 것에 서툽니다. 미래의 나에게 데이터는 거짓말쟁이다. 수집되다가 거짓말을 치고, 가공하다가 거짓말을 치고, 적재되어서까지 거짓말을 한다. 그나마 믿을만 한게 raw 데이터다. raw 데이터를 가공할 때 최대한 간단한 로직으로 구성하자. raw 데이터도 못 믿겠으면, 적어도 파이프라인 어느 한 곳에서 신뢰할 수 있고 간단한 '거름망' 작업이 필요하다. 문제 해결은 최대한 간단하게 시스템 가뜩이나 크다. 어떤 기능을 추가하는 것보다 빼는게 더 어렵고, 장기적으로 시스템을 가볍게 해야한다. 추가 하기보단 덜어내고, 있는 걸로 쓰는 방법이 가장 우선이다. 예외 처리는 웬만하면 쓰지말자 모르는 에러가 나면 터지는게 맞다. 대응을 그 시점에 당장 못한다면, 로..

일기

데이터엔지니어가 되고 나서

진짜 데이터 엔지니어가 된지 거의 두 달이 되었습니다. 처음에 합격 통보가 왔을 때부터 아직도 꿈에 살고 있는 것 같습니다. 정신 없이 회사 일을 배우고, 기술을 배우다보니 시간이 훌쩍 지나갔는데, 이 과정에서 제가 많이 성장했다는 것도 느낍니다. 조금 더 소프트웨어 자체를 넓게 보게 된 것 같고, 그 안에서 쓰이는 세부 기술들도 어떻게 활용해야하는지 많이 배우고, 익숙해졌습니다. 데이터 파이프라인이나, 데이터웨어하우스 관련 기술들에 대해 해보고 싶다는 생각을 많이 했는데, 지금은 CS 지식과, 소프트웨어 설계 이런 것들에 자연스레 더 관심이 많은 것 같습니다. 기초가 튼튼하면, 이해하는게 달라진다고 했었는데, 확실히 기반 지식을 하나하나 배울 때마다 왜 이렇게 코드를 짰는지, 왜 나는 이런 코드 리뷰를..

일기

Spark 공부하면서 쓴 일기

배운 것 Spark DataFrame 활용 데이터 가공 및 처리 정형데이터 처리 쪽은 SparkSQL이 훨씬 편하고 좋은 것 같음 그런데 정형데이터 처리할 때 조금 난해한 문제들이 있음 예를 들어 데이터 하나가 1정규화 안된 채로 있어서, 이걸 1정규화 해줘야 하는 경우 split, explode 같은 거 활용(pandas랑 크게 다르지 않음) 비정형 데이터 처리 regex 핵꿀 데이터 저장 데이터 저장 방식이 좀 흥미로웠는데, 애초에 Spark은 partition 단위로 가공하기 때문에 파일을 저장해도 애초에 폴더로 저장해서, 그 안에 part로 저장됨 일단 지금은 standalone이라 1개씩 저장되는데, 기본적으로 큰 데이터 가공하면 part가 여러 개씩 나올듯(예를 들면 data.csv로 저장하면..

일기

다시 시작하기

플레이데이터 국비교육과정도 끝났고, 실날데 데이터엔지니어링 과정도 전부 마쳤습니다. 6월 30일에 마치고 난 후에, 잠시 정리하고 예비군 2박 3일 다녀오니 예비군 4년차도 끝났습니다. 그런데 지난 6개월 간의 자료 정리하면서 차근차근 돌아보니, 잘한 점도 많지만 아쉬운 점도 꽤나 남습니다. 지금 제 스스로 돌아본 결과는 이렇습니다. CS 지식 정보처리기사를 취득한 후에야, CS 지식이 어느정도 가닥이 잡혔다고 생각했지만, 여러 지식들이 산재해있는 느낌입니다. 머릿 속에 완벽하게 정리된 것도 아닌 것 같구요. 프로젝트를 하면서, 그리고 공부를 해오면서 느낀거지만, 정말 우리가 쓰는 파이썬이나 자바, 뭐 각종 하둡 에코 시스템에 쓰이는 것들 전부 그저 사용이 편리한 도구에 지나지 않았나?라는 생각이 듭니다..

일기

플레이데이터 데이터엔지니어링 트랙 완강 후기

안녕하세요. 오늘은 플레이데이터 엔지니어링 트랙 완강을 한 후기에 대해서 글을 써보겠습니닷.. 부트캠프에 가려고 마음 먹었을 때를 생각해보면, 수강 기간동안 정말 알차게 보냈지만, 이제 정말 시작이구나라는 마음입니다. 오늘은 6개월 동안의 기간 동안 제가 뭘 했는지, 그리고 어떤 생각들이 들었었는지 정리해보겠습니다. 12월(수강 전) 플레이데이터 데이터 엔지니어링 트랙 시작 사실 저는 데이터 전문 스타트업에서 약 8개월 간, 인턴 근무를 했었습니다. 데이터 분석팀이였지만, 데이터 분석 일보다는 데이터엔지니어링?이라고는 애매하지만, 데이터를 가공하고 정제, 크롤링하는 일들을 했었습니다. 예전에 SBA에서 창업육성팀에서도 6개월 정도 인턴을 해봤었는데, 데이터를 가공하면서 이렇게 재밌는 일을 하면서 돈을 번..

일기

데이터엔지니어링 트랙 5개월차 후기

일단 지난 3, 4월부터 해서 오늘까지 꽤 시간이 많이 지났습니다. 그 안에 많은 상황들이 있었고, 제가 목표했던 것들을 조정하기도 이뤄내기도 했습니다. 일단 저번에 올렸던 목표를 점검해보겠습니다. 알고리즘 스터디 CS 스터디(정처기 실기 준비)(가채점 결과는 합격) 빅데이터를 지탱하는 기술 책 리뷰(읽기만 했습니다,,) 데이터엔지니어링 키트 마무리 블로그 리뷰하기 일단 알고리즘 스터디는 전혀 하지 못했고, 정처기 실기 시험은 잘 마무리가 됐습니다. 그리고 프로그래머스에서 진행하는 데이터엔지니어링 키트 모두 완강했고, 공부하면서 블로그 리뷰도 마무리 했습니다. 사실 5월 달까지, 전부하진 못할거라고 생각했는데 그래도 중요한 우선 순위를 잘 두고 하나하나 잘 했던 것 같습니다. 마냥 데이터가 좋아서 이 길..

일기

데이터엔지니어링 트랙 9~11주차 후기

중간목표 점검 머신러닝, 딥러닝을 활용한 미니프로젝트 하다보니 욕심이 생겨 스케일이 꽤나?? 커진 프로젝트였습니다. 딥러닝 모델을 배우면서, 자연어에 관심이 생겼고 자연스럽게 자연어를 통한 감성분류 모델을 만들기로 했습니다. 여기에 챗봇이 붙었고, 추천 알고리즘(랜덤 + 코사인 유사도 활용)을 구현해보기도 했습니다. 이번 프로젝트도 열정적인 팀원분들이랑 함께해서 그런지 부족한 점이 많지만, 제 스스로는 만족했던 프로젝트였습니다! 크게 보면 챗봇, 감정 분류, 추천알고리즘 -> 웹 구현 이렇게 진행됐는데, 여기서 데이터베이스를 활용해보면서 웹 데이터를 어떻게 데이터베이스에 넣을지 고민하고, 저희가 수집한 데이터를 어떻게 새로운 추천알고리즘으로 구현할까? 까지 고민해보면서, 데이터에 대한 새로운 시각을 얻게..

일기

데이터엔지니어링 트랙 4~8주차 후기

중간 목표 점검 어떻게 지내왔는지, 되돌아볼 시간도 없이 한 달이 흘렀습니다. 3월 초까지 파이썬 기초, 시각화, 머신러닝, 딥러닝에 대한 기초적인 이해를 하면서 산업 전반으로 데이터가 어떻게 쓰이고 활용되는지 이해하려고 했는데, 나름? 성공적이라고 생각합니다! 먼저 3월이 되기전에 이루고 싶었던 것들은 정보처리기사 필기 합격 미니프로젝트를 통한 머신러닝 프로젝트 이해 데이터엔지니어링에 대한 전반적인 이해 알바 마치기 이렇게 있었습니다. 돌아보면 정보처리기사 필기 합격! IT 산업 전반적으로 맛보기? 정도 한 것 같습니다. 필기를 하는 과정에서 답만 외운 구간이 조금 있어서, 실기 하면서 이 부분은 좀 더 보충해서 학습할 예정입니다. 미니프로젝트를 통한 데이터 산업 이해 https://dataengine..

일기

데이터엔지니어링 트랙 3주차 후기

배운 것들 이번주에는 넘파이, 판다스 위주로 데이터 관련 파이썬 라이브러리를 학습했다. 메소드 위주의 강의여서 몰랐던 메소드들을 배울 때마다 진짜 재밌게 들은 것 같다. 특히 판다스 cat 메서드 들을 때는 속으로 아차 싶었다. 예전에 범주형 변수 만드려고, 함수 만들어서 데이터 변환하고 타입 변환하고,, 심지어 ordinal일 때는 어렵게 어렵게 작성했는데, 메소드 한 줄로 끝내버리는 방법이 있었다... 역시 배워야한다고 다시 생각할 수 있었다. 넘파이도 정렬 과정에서 정렬 인덱스를 바로 반환하는 메서드가 있는데, 넘파이의 메모리 저장방식을 들어보면, 데이터가 커질수록 인덱스 array를 넘파이로 관리하는게 진짜 효율적이겠구나 싶었다. 실제 프로젝트 과정에서 인덱스를 넘파이로 저장하고, 그 넘파이 ar..

일기

데이터엔지니어링 트랙 2주차 후기

했던 생각들.. 이번 주는 파이썬 기초를 쭉 배우고, 예제 문제를 푸는 식으로 진행됐다. 중요한 부분이나, 몰랐던 부분은 블로그에 쭉 업데이트 중이다. 진짜 너무 재밌다... 특히 메모리를 쓰는 방식이나, 리스트 같은 객체들이 메모리를 어떤 방식으로 사용하는지, 함수를 작성하는 과정에서 함수의 설명을 달아놓는 방법이라던지(doc), 함수의 인자를 어떻게 구성하는지에 대해서 배울 때는 수업시간이 짧다고 느낄 정도로 재밌게 들었다. 또 list comprehension의 속도 면에서의 장점이나, map 함수를 들었을 때는 과거에 개발했던 프로그램들을 생각해보면서, 내가 어떤 점들이 부족했는지 하나하나 채울 수 있었던 것 같다. 이 과정에서 가장 재밌게 했던 생각들은 빅데이터를 인덱스를 통해서 조작하는 과정이..

일기

데이터엔지니어링 트랙 2일차 후기

일단 너무 재밌다. 부족했던 부분이 하나하나 채워지는 것 같다. 특히 강사님께서 간단한 코드에도 컴퓨터 공학적 지식?을 담아서 설명해주시는데, 어떻게 코드에 구현할 수 있을까 들으면서 계속 고민했던 하루였다. 리스트, 튜플 특히 오늘 제일 인상 깊었던 건 튜플, 리스트의 차이였는데 수정이 가능하고 불가능한 차이 때문에, 자료가 커질수록 리스트가 시간이 압도적으로 많이 걸린다는 점.. 예전에 데이터 전처리 자동화 프로그램 만들 때, 일부 구간에서 튜플을 적용해서 인덱스를 받아왔다면, 실행속도를 압도적으로 줄일 수 있었을 것 같다!! 다만 튜플을 일부 구간에서 써야하고 리스트랑 튜플이랑 합치는 과정에서 더 메모리 손실이 발생할 수도 있을 것 같다 당시에는 데이터프레임 자체에서 작업을 하도록 하면, 시간이 너..

우상욱
'일기' 카테고리의 글 목록