데이터엔지니어

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(Numpy)

넘파이 배열 Numpy는 파이썬 내장 모듈이 아닙니다. 따라서 별도의 설치를 요구합니다. 하지만 아나콘다 환경 사용시 기본적으로 Numpy 패키지를 설치없이 사용할 수 있습니다. 숫자 데이터를 좀 더 쉽고 편리하게 다룰 수 있게 도와주는 패키지 숫자 데이터를 효과적으로 다룰 수 있기 때문에, 데이터 과학 및 데이터 분석에 많이 사용되는 파이썬 패키지 Numpy는 다차원 배열 자료구조 클래스인, ndarray 클래스를 지원하며, 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용 import numpy as np 리스트가 아닌 넘파이 배열을 사용하는 이유 구조적으로 속도가 빠르고, 메모리를 더 적게 사용한다.(같은 종류의 데이터만 저장하기 때문에) Numpy Array VS Python List Numpy ..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(Class)

객체지향(Object Oriented) 프로그래밍 객체지향 프로그래밍은 복잡한 문제를 잘게 나누어 객체로 만들고, 객체를 조합해서 문제를 해결합니다. 현실세계의 복잡한 문제를 처리하는데 유용하며 기능을 개선하고 발전시킬 때도 해당 클래스만 수정하면 되므로, 큰 프로젝트의 유지보수에도 매우 효율적입니다. 객체가 가진 데이터를 클래스의 속성(Attribute)이라 부르고 객체가 갖는 기능을 메서드(Method)라고 부릅니다. 클래스(Class) 클래스는 사용자, 정의 객체를 만들기 위한 주형이라고 생각하면 됩니다. 클래스 정의는 보통 클래스의 인스턴스를 대상으로 연산하는 메서드 정의를 포함하고 있습니다. # 클래스명으로 주로 PascalCase(UpperCamelCase)를 씁니다. class ClassNa..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(전역변수, 지역변수, 람다(lambda))

변수의 범위(variable scope) - 전역 변수(global variable) 우리가 함수를 배우기 전까진 제일 바깥 영역인 전역 범위(global scope)에서 변수를 선언하고 활용했었습니다. 전역 범위에서 선언했기 때문에 그 변수를 스크립트 전체에서 접근 할 수 있었는데, 그 변수를 전역 변수(global variable)이라고 부릅니다. global_variable = "this is global world" print(f"global_variable in global_scope=> {global_variable}") print(hex(id(global_variable))) def local_world() print(f"global_variable in local_world=> {globa..

일기

데이터엔지니어링 트랙 2주차 후기

했던 생각들.. 이번 주는 파이썬 기초를 쭉 배우고, 예제 문제를 푸는 식으로 진행됐다. 중요한 부분이나, 몰랐던 부분은 블로그에 쭉 업데이트 중이다. 진짜 너무 재밌다... 특히 메모리를 쓰는 방식이나, 리스트 같은 객체들이 메모리를 어떤 방식으로 사용하는지, 함수를 작성하는 과정에서 함수의 설명을 달아놓는 방법이라던지(doc), 함수의 인자를 어떻게 구성하는지에 대해서 배울 때는 수업시간이 짧다고 느낄 정도로 재밌게 들었다. 또 list comprehension의 속도 면에서의 장점이나, map 함수를 들었을 때는 과거에 개발했던 프로그램들을 생각해보면서, 내가 어떤 점들이 부족했는지 하나하나 채울 수 있었던 것 같다. 이 과정에서 가장 재밌게 했던 생각들은 빅데이터를 인덱스를 통해서 조작하는 과정이..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(함수, 문자열 메서드 join)

함수(function) 프로그래밍에서 함수(function)는 독립적으로 설계된 프로그램 코드의 집합입니다. 함수를 사용하면 반복적인 코드의 양을 줄여 유지보수성을 높여줍니다. ### 함수 정의부 def 함수명(인자, 인자,...): ## parameter : 인자 함수코드... return 반환값 ### 메인코드 x = 함수명(인수, 인수, ...) ## argument : 인수 print("결과값 :", x) 함수가 호출되면 함수정의부로 가서 함수 호출부의 인수 값을 함수 정의부 인자값에 순서대로 대입 함수 정의부 내부 코드를 순차적으로 실행 해당 함수에 return 값이 있는 경우, 함수 호출부를 return 값으로 치환 파이썬은 오버로딩(overloading) 불가 프로그래밍에서의 함수(funct..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(tuple, random, set)

튜플 : immutable(불변한) 리스트에 비해 가능한 메소드 빈 튜플(empty tuple) 비어있는 빈 튜플을 만들 때는 소괄호(())만 쓰거나 인자없는 tuple 함수를 사용하면 됩니다. empty_tuple = tuple() print(empty_tuple) print(type(empty_tuple))제너레이터 컴프리헨션(comprehension) 소괄호로 된 아래 표현식은 튜플이 아닌 제너레이터 컴프리헨션이 된다. 제너레이터도 반복 가능한 객체로 tuple() 함수를 사용하면 제너레이터 객체를 tuple로 만들 수 있습니다. generator_variable = (expression for x in range(10)) tuple(expression for x in range(10)) gener..

데이터 분석 및 시각화/파이썬

[Python] 메모리에 객체를 저장하는 구조

리스트는 값을 변경, 삭제, 추가 할 수 있고 메모리를 많이 차지한다. 따라서 조금 특이한 구조가 발생하는데, 예시로 알아보자 prac_result4 = [str(x) for x in list(range(2,11))] + [x for x in 'JQKA'] print(prac_result4)해당 코드에서 prac_result4라는 변수를 만들었다. ['2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K', 'A'] 이 리스트는 prac_result4라는 이..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(dictionary, zip, list comprehension)

딕셔너리 자료형(DICTIONARY TYPE) 딕셔너리 자료형은 비 시퀀스 자료형입니다. 따라서 인덱스를 갖지 않습니다. 대신 이 자료형은 고유한 키(KEY) 값을 갖습니다. 이 키(KEY)는 1대1로 매칭 되는 값(VALUE)를 갖습니다. 이를 KEY-VALUE PAIR라고하며 딕셔너리 자료형의 특징입니다. 중괄호({})를 활용하여 딕셔너리 자료형을 생성할 수 있습니다. 중괄호 안에는 KEY-VALUE PAIR를 작성하며 형태는 KEY:VALUE와 같습니다. KEY-VALUE PAIR는 콤마로 구분지어 요소로 등록할 수 있습니다. dic_var = {'key':'value'} dictionary_variable = {key: value, key: value} 딕셔너리 키(K..

데이터 분석 및 시각화/파이썬

[Python] 기초 정리(for문, range의 활용, while문, break, continue)

for문 for 요소를 담을 변수 in 반복 가능한 객체: 반복할 코드(띄어쓰기 4칸) for 변수 in range(횟수): 반복할 코드(띄어쓰기 4칸) Python에서의 for문 조금 특이한 구조 JAVA의 일반적인 for문은 for(변수 선언; 조건식; 증감식){실행부} 변수의 숫자를 증감시키고, 산술적 변화에 따라 조건식에 부합할 때까지 반복하는 방식 오히려 Python의 for문은 자바의 향상된 for문과 유사 for(자료형 변수명 : Iterable){실행부} range print(list(range(5,10))) print(list(range(0,10,3))) print(list(range(-10,-71, -30))) # [5, 6, 7, 8, 9] # [0, 3, 6, 9] # [-10, -..

일기

데이터엔지니어링 트랙 2일차 후기

일단 너무 재밌다. 부족했던 부분이 하나하나 채워지는 것 같다. 특히 강사님께서 간단한 코드에도 컴퓨터 공학적 지식?을 담아서 설명해주시는데, 어떻게 코드에 구현할 수 있을까 들으면서 계속 고민했던 하루였다. 리스트, 튜플 특히 오늘 제일 인상 깊었던 건 튜플, 리스트의 차이였는데 수정이 가능하고 불가능한 차이 때문에, 자료가 커질수록 리스트가 시간이 압도적으로 많이 걸린다는 점.. 예전에 데이터 전처리 자동화 프로그램 만들 때, 일부 구간에서 튜플을 적용해서 인덱스를 받아왔다면, 실행속도를 압도적으로 줄일 수 있었을 것 같다!! 다만 튜플을 일부 구간에서 써야하고 리스트랑 튜플이랑 합치는 과정에서 더 메모리 손실이 발생할 수도 있을 것 같다 당시에는 데이터프레임 자체에서 작업을 하도록 하면, 시간이 너..

일기

블로그를 시작하면서

데이터엔지니어로 내 진로를 확실히 정하면서, 엔코아 플레이데이터 데이터엔지니어링 트랙 과정 6개월 과정에 참여하게 됐다. 데이터 회사에서 일하면서, 적성에 너무나도 잘 맞고 어떤 일보다 흥미롭고 재밌다는 점도 발견했다. 학원 오티날 강사님께서 기록할만한 블로그를 만들라고 하셨다. 내가 정리한 자료만큼 내가 이해가 쉬운 자료들은 없다고 항상 생각했는데, 지금까지 해왔던 것들, 그리고 이제 배울 것들도 전부 이 블로그에 담을 생각이다. 데이터에 관한 걸 배우는 것만큼 흥미로운 일은 없다. 한 반이 다 같은 진로를 생각한 만큼, 계속 동료로 지내면서 학원이 끝나도 동료로 지낼 수 있었으면 좋겠다. 가장 설레는 건 앞으로 배우는 내용들을 학원에서 매 스텝마다 프로젝트를 팀원들과 함께한다는 건데, 솔직히 너무너무..

우상욱
'데이터엔지니어' 태그의 글 목록 (14 Page)