본문 바로가기
728x90
반응형

빅데이터 분석기사19

[빅분기] groupby 후 .reset_index()의 역할 [빅분기] groupby 후 loc나 iloc 적용 방법 .reset_index()의 역할은 현재의 인덱스를 기본 정수 인덱스로 되돌리고 기존 인덱스를 DataFrame의 열로 전환하는 것입니다. 이는 그룹화 및 집계 작업 후 원래의 인덱스였던 열을 다시 사용할 수 있게 합니다..reset_index()가 필요한 이유그룹화 및 집계 후 인덱스 변화: df.groupby(['city', 'f2']).sum()을 수행하면, 'city'와 'f2' 열이 인덱스로 변환됩니다. 이 상태에서는 'city'와 'f2'는 더 이상 DataFrame의 열이 아니기 때문에, 직접 참조하기 어렵습니다.정렬 후 행 참조: sort_values(by='views', ascending=False)로 정렬한 후에도 여전히 'cit.. 2024. 5. 24.
파이썬 데이터 타입 완전 정복 - 튜플, 리스트, 딕셔너리, 집합 파이썬 데이터 타입 완전 정복 - 튜플, 리스트, 딕셔너리, 집합 목차 파이썬의 데이터 타입 파이썬의 데이터 타입이 뭐가 있는 지 궁금해 하는 사람이라면, 아마 단일 데이터 타입이 아닌 복합형 데이터 타입을 궁금해할 가능성이 높다. 단일 데이터 타입은 정수, 실수, 문자형, 불리언, 논타입 등을 말한다. 개발자라면 이미 충분히 아는 내용일 것이며, 비개발자라면 처음들을 가능성이 높다. 빅분기를 준비하는 분들이라면, 함께 알아두면 좋다. error 내용 중에 가끔 이러한 내용이 나올 수 있기 때문이다. 본 설명의 예시 이미지들은 모두 Jupyter notebook을 이용했다. 해당사항은 아래 글에서 상세히 확인할 수 있습니다 : ) 2023.05.24 - [빅데이터 분석기사] - 아나콘다 및 파이썬 설치(.. 2024. 2. 3.
[빅분기] 데이터 이상치 찾기 IQR 확인 [빅분기] 이상치를 찾는 방법 목차 IQR 개념 핵심 키워드 IQR = Q3 - Q1 기준은 중앙치 Q1 = 25% 지점 Q3 = 75% 지점 이상치의 범위 Q1-1.5*IQR 이하 Q1+1.5*IQR 이상 IQR은 사분위수만 이해하면 어렵지 않습니다. 사분위수는 전체 데이터를 25%씩 4등분한 것을 말합니다. Q1 25% Q2 50% Q3 75% Q4 100% 이중 25%~75%의 범위가 Q1~Q3에 속합니다. Q3-Q1을 하면 75%해당하는 값에서 Q1에 해당하는 값을 빼게 되는데, 이게 기준점이 되어 데이터의 50%에 속하는 범위의 특정 값을 말하게 됩니다. 왜 그런지에 대해서는 데이터를 정리하는 많은 방법 중 이러한 방법이 있다는 정도로만 기억하시면 좋습니다. 중앙치를 기준으로 데이터의 분포 확률.. 2023. 11. 27.
내가 보려고 만든 빅분기 꼭 알아야할 명령어 제 1유형최소최대 변수 = MinMaxScaler() from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaler.fit_transform(data[['qsec']]) 표준화(Standardization) : StandardScaler | scaler.fit_transform(data) from sklearn.preprocessing import StandardScaler data = pd.read_csv('data/mtcars.csv', index_col=0) scaler = StandardScaler() scaled_data = scaler.fit_transform(data[['qsec']]) print(scaled_dat.. 2023. 6. 24.
[빅데이터분석기사] 제 1유형 기출 파해치기 - 2 | 풀이 모음 | 여러 방식 | 핵심정리 Q. 데이터셋 (basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후,'age'컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기. 1) 데이터셋 불러오기 언제나 처럼 데이터를 먼저 불러와 줍니다. 파일 위치는 사용하시는 연습 프로그램에 따라 다를 수 있습니다. import pandas as pd data = pd.read_csv('basic1.csv') 2) 상위 데이터 구하기 : 정렬 메서드 .sort 메서드를 쓰거나 sorted() 함수를 쓰면 됩니다. 빅데이터를 공부하다보니, 그럼 정처기 때 왜 버블 정렬, 순차정렬 그런거 했는지 이렇게 편하게 만들어 둔게 있으면 이런거 쓰면 참 좋았을 걸 싶네요..ㅎ 중요한건.. 2023. 6. 22.
[빅데이터분석기사] 제 1유형 기출 문제 파해치기 - 1 | 풀이 모음 | 여러 방식 | 핵심정리 [빅데이터분석기사] 제 1유형 기출 문제 파해치기 | 풀이 모음 | 여러 방식 | 핵심정리 목차 제 1유형은 레코드수, 최소 값, 최대 값을 구하거나 특정 변수를 생성하여 저장하는 것 그리고 내림차순, 오름 차순 정렬하는 것이 주로 나오는 것 같다. 즉, 대부분 하나의 컬럼을 기준으로 데이터를 다루고 특정 정규화 혹은 중심 경향성을 계산할 줄 아는지, 그 기준으로 다시 정렬하거나 기본적인 수행이 가능한지 물어 보는 것 같다. 제 1유형 과거 문제 유형 Q1. (정규화 후 기준을 세워 레코드 수를 찾는 문제) mtcars 데이터셋(data/mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. Q2. 데이터셋의 'f5'.. 2023. 6. 21.
DataFrame을 다른 데이터 타입으로 바꾸는 방법 (CSV파일로 저장하는 방법 포함) 빅데이터를 분석할 때 사용하는 데이터 타입은 주로 DataFrame입니다. DataFrame은 테이블 형태의 2차원 데이터 구조로, 여러 열(column)로 구성되어 있습니다. 이러한 형태의 데이터 구조는 빅데이터를 효율적으로 다룰 수 있도록 설계되었습니다. DataFrame은 Pandas 라이브러리에서 제공되며, 데이터의 구조화, 필터링, 그룹화, 조인 등 다양한 작업을 수행할 수 있습니다. DataFrame은 대용량의 데이터를 처리하고 분석하는 데에 효율적이며, 복잡한 연산이나 집계 작업에도 용이합니다. 또한, DataFrame은 다양한 데이터 타입을 갖는 열을 가질 수 있기 때문에 빅데이터의 다양한 속성을 표현할 수 있습니다. 하지만, 때에 따라 데이터프레임 자체로 분석하는 것보다 효율적으로 다루기.. 2023. 6. 20.
[빅데이터 분석기사] 제2유형 문제 풀기 - 체험하기 문제 실제 시험 환경을 확인할 수 있는 곳에서 나오는 문제를 풀어보면서 감을 익혀보려고 합니다. 빅데이터 분석기사에서 쓰는 라이브러리가 생각보단 많지 않지만, 코딩을 처음하면 생각보다 복잡할 수 있습니다. 문제 mtcars 데이터셋(data/mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. * dataset 위치 : data/mtcars.csv 풀이 과정 데이터 불러오기 데이터 불러올 pandas 설치 #panda import 데이터를 불러오기 위한 라이브러리 import pandas as pd #sklearn의 MinMaxScaler import Min-Max를 위한 라이브러리 panda로 데이터 불러오기 #데이터는.. 2023. 6. 19.
[빅데이터 분석기사] python 기본 데이터 다루기 파이썬으로 데이터를 기본적으로 다룰 줄 알아야 시험 문제를 제출할 수 있습니다. 데이터를 불러오고 가공하는 것이 가장 중요한 파트일 수 있으니, 자주 살펴봐야할 것 같습니다. 시간이 많이 없을 직장인 분들은 반복적으로 확인해보시길 바랍니다. 데이터 불러오기 local이건 cloud건 데이터를 불러와야 분석을 할 수 있습니다. 데이터를 불러오는 건 pandas를 이용해야합니다. import pandas as pd는 필수! [임의 변수명] = pd.read_csv('경로') 불러온 데이터 확인하기 기본적으로 print 문안에 변수를 넣으면 출력이 됩니다. 하지만, 우리는 다양한 것들이 알고 싶죠? 시작 전 알아야할 문법의 주요 요소 []와 ()는 Python에서 중요한 역할을 하는 기호입니다. .(dot)의.. 2023. 6. 19.
[빅데이터 분석] 실제 시험환경과 같이 연습하기 구름 | 온코더 | 프로그래머스 [빅데이터 분석] 쥬피터노트 말고 클라우드 프로그램 구름, 온코더, 프로그래머스 목차 빅데이터 분석 기사 실기 연습을 위한 프로그램 빅데이터 분석기사 실기 책에서는 쥬피터노트를 추천해줬지만, 아주 큰 단점이 있습니다. 바로 시험 환경과는 다르다는 것입니다. 그렇다면, 우리도 시험환경과 같이 준비해야할 텐데, 클라우드를 이용하면 됩니다. 가장 좋은 것은 시험환경과 같은 구름 IDE를 이용하는 것입니다. 아래 링크가 시험환경입니다. 소개 중 첫 번째는 시험환경을 예시로 들고 있습니다. 구름(goorm) Goorm은 한국의 클라우드 기반 개발 환경 플랫폼입니다. 이를 통해 개발자들은 웹 브라우저 상에서 코드 작성, 디버깅, 컴파일 등을 수행할 수 있습니다. 또한 Goorm은 개발자들 간의 협업을 용이하게 하고.. 2023. 6. 18.
[빅데이터 분석] 쥬피터 노트란? | 설치방법 | 활용방법 [빅데이터 분석] 쥬피터 노트란? | 설치방법 | 활용방법 목차 쥬피터노트란? 쥬피터 노트 빅데이터 분석기사에서 파이썬을 통한 데이터 분석을 위해 쓰는 도구 중 하나입니다. 아나콘다를 이용해 설치하여 사용합니다. 쥬피터 노트(Jupyter Note)는 데이터 과학과 프로그래밍 분야에서 널리 사용되는 개발 환경입니다. 이 환경은 인터랙티브한 작업을 가능하게 해주며, 코드 작성, 실행, 결과 시각화, 문서화, 협업 등의 다양한 작업을 지원합니다. 쥬피터 노트의 주요 기능은 "노트북"이라고 불리는 문서 형식입니다. 노트북은 웹 브라우저에서 실행되는 환경에서 코드와 텍스트, 이미지, 그래프 등을 포함한 문서를 작성하고 실행할 수 있습니다. 노트북은 여러 개의 셀(cell)로 구성되며, 각 셀은 코드 실행 또는 .. 2023. 6. 5.
[무턱대고 빅데이터분석기사] SciPy란? | 상관분석 | 회귀분석 [무턱대고 빅데이터분석기사] SciPy란? | 상관분석 | 회귀분석 빅데이터 분석기사에서 SciPy를 이용한 상관계수는 pearson, Spearman, Kendall's 상관계수입니다. 상관은 두 변수의 변화가 일정하게 증가 혹은 감소하는 지에 대한 것을 확인하는 것입니다. 상관변수(예. Pearson 값)으로 얼마나 상관이 있는지 알 수 있습니다. 상관분석이란 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법입니다. 상관분석에서는 두 변수 사이의 관계의 강도와 방향을 나타내기 위해 상관계수라는 수치를 사용합니다. 상관계수는 -1과 1 사이의 값을 가지며, 양의 상관관계일 경우 +값, 음의 상관관계일 경우 -값을 가집니다. 상관계수가 0이면 두 변수 사이에 선형적인 관계가 없다는 의미입니다.. 2023. 6. 4.
[빅데이터] 통계에서 보간(Interpolation)이란? | 공식 | 방법 | 외섭과의 차이 [빅데이터] 통계에서 보간(Interpolation)이란? | 공식 | 방법 | 외섭과의 차이 목차 보간(Interpolation)이란? 보간(Interpolation)은 주어진 데이터 포인트 사이의 누락된 값을 추정하는 과정을 말합니다. 주로 데이터 포인트 사이에서의 값을 예측하거나 부드러운 곡선을 형성하는 데 사용됩니다. 보간은 데이터 분석, 그래픽 처리, 기상 예측, 금융 모델링 등 다양한 분야에서 활용됩니다. 보간은 알려진 데이터 지점의 고립점 내에서 새로운 데이터 지점을 구성하는 방식입니다. 보간에는 여러 가지 방법이 있습니다. 가장 간단한 보간 방법은 선형 보간입니다. 선형 보간은 두 개의 알려진 데이터 지점 사이의 새로운 데이터 지점을 직선으로 연결하는 방법입니다. 선형 보간은 가장 간단한 .. 2023. 6. 4.
[무턱대고 빅데이터분석기사] Pandas란? | 명령어 | 분석방법 | 활용 예시 [무턱대고 빅데이터분석기사] Pandas란? | 명령어 | 분석방법 | 활용 예시 목차 Pandas란? Pandas는 파이썬에서 사용되는 데이터 조작과 분석을 위한 라이브러리입니다. Pandas는 효율적인 데이터 구조와 데이터 처리 기능을 제공하여 데이터를 쉽게 다룰 수 있도록 도와줍니다. 핵심 데이터 구조는 "DataFrame"입니다. DataFrame은 행과 열을 가지는 테이블 형태의 2차원 데이터 구조입니다. 이를 통해 데이터를 효율적으로 조작하고 필터링, 정렬, 그룹화, 통계 분석 등 다양한 작업을 수행할 수 있습니다. 다양한 데이터 소스와 상호작용할 수 있습니다. CSV, Excel, SQL 데이터베이스, JSON 등 다양한 형식의 데이터를 가져와 처리할 수 있습니다. 또한, 데이터를 다양한 형.. 2023. 6. 2.
[무턱대고 빅데이터 분석기사] Numpy를 활용한 데이터 다루기 | 설치부터 활용까지 | pandas와의 차이 [무턱대고 빅데이터 분석기사] Numpy를 활용한 데이터 다루기 | 설치부터 활용까지 | pandas와의 차이 numpy는 반복문 없이 벡터, 행렬 계산이 가능한 패키지입니다. 행렬을 쉽게 만들고 가공할 수 있는 것이 특징입니다. 기본 통계 연산이 가능하여 빅데이터 분석에 자주 이용됩니다. 목차 Numpy 설치 및 실행 numpy 실행은 패키지 설치와 동일하다. numpy 설치하기 쥬피터 노트북(Jupyter Notebook)에서 설치하는 경우: !pip install numpy 파이썬 스크립트나 터미널에서 설치하는 경우: pip install numpy numpy 불러오기 import numpy as np Numpy 특징 NumPy(Numerical Python) 라이브러리는 통계 계산을 위한 몇 가지.. 2023. 5. 31.
자연어 처리(NLP)란? | 구현 방법 | NLTK | 페이스북에서 활용 자연어 처리란? | 구현 방법 | NLTK | 페이스북에서 활용 빅데이터 분석을 하면 꼭 마주하게 되는 자연어 처리, 말 그대로 사람이 쓰는 자연스러운 말들을 기계한테 학습시켜서 분석하는 방식입니다. 특정 문서(web)의 문장들을 읽어 의미를 파악하고 유사한 의미는 하나의 키워드로 자연어 처리는 마치 컴퓨터가 '마법의 언어 이해능력'을 가지게 하는 것과도 같습니다. 자연어 처리 기술을 통해 컴퓨터는 우리가 말하는 문장의 의미를 파악하고, 주어진 작업을 수행할 수 있게 됩니다. 예를 들어, 컴퓨터가 문장을 이해하면 우리에게 문장의 주제를 알려주거나, 단어의 뜻을 정확하게 파악해 주거나, 번역을 해 줄 수 있습니다. 그럼, 자연어란 무엇인지, 어떻게 처리하는지에 대해 알아보겠습니다. 분석 툴은 python입.. 2023. 5. 27.
빅데이터 분석에서 많이 쓰는 기법 TF-IDF란? | TF-IDF 방법 | TF-IDF 예시 | 비판점 빅데이터 분석에서 많이 쓰는 기법 TF-IDF란? | TF-IDF 방법 | TF-IDF 예시 TF-IDF는 "Term Frequency-Inverse Document Frequency"의 약어로, 텍스트 데이터에서 각 단어의 중요도를 계산하는 방법입니다. 이 방법은 정보 검색과 텍스트 마이닝 분야에서 널리 사용되며, 특정 문서에서 어떤 단어가 얼마나 중요한지를 나타냅니다. 목차 TF-IDF란? TF(Term Frequency)는 특정 문서 내에서 단어가 얼마나 자주 등장하는지를 나타내는 지표입니다. 한 문서 내에서 많이 등장하는 단어는 해당 문서에서 중요한 역할을 할 수 있습니다. 일반적으로는 문서 내에서 단어의 출현 빈도를 단순히 계산합니다. IDF(Inverse Document Frequency)는 .. 2023. 5. 27.
아나콘다 및 파이썬 설치(feat. 프롬프트, 빅분기) 아나콘다 및 파이썬 설치(feat. 프롬프트, 빅분기) 파이썬은 웹 개발에서나 쓰는 줄 알았는데, 빅데이터 분석에도 쓰이는 걸 처음 알았다. 오픈소스라서 나중에도 쓸 수 있을 것이다. 파이참이나 다른 IDE를 쓸 수도 있겠지만, 아나콘다 프롬프트를 통해 생성한 쥬피터 노트북이 더 많이 쓰이는 듯하다. 빅분기를 볼 예정인 분들은 Groom에 들어가서 연습해도 무방할 듯하다. 목차 왜 파이썬을 직접 설치하지 않고, 아나콘다에서 다운로드 받는가? 개발자는 아니지만, 파이썬을 직접 받을 수 있는 것으로 안다. 파이썬 홈페이지에 나와 있기 때문이다.(https://www.python.org/) 그런데, 빅분기에서는 아나콘다로 받으라고 한다 왜인지 궁금했다. 구글링해본 결과 이유는 다음과 같다. 편리한 패키지 관리.. 2023. 5. 24.
[무턱대고 빅데이터분석기사실기] 빅데이터 분석 기사란? [무턱대고 빅데이터분석기사실기] 빅데이터 분석 기사란? 통계는 제법 다뤄봤지만, 빅데이터 분석은 해본 적이 없다. IT 기업의 마케터라함은 이 정도는 따야지 싶어 시작했는데, 빅분기 실기는 쉽지 않아 보인다. 목차 빅데이터 분석기사란? 빅데이터 분석기사는 빅데이터를 수집, 관리, 분석하고 결과를 해석하는 전문가를 말합니다. 이러한 전문가는 기업이나 기관에서 발생하는 대량의 데이터를 수집하고 저장하여, 해당 데이터에서 가치 있는 정보와 통찰력을 도출하는 역할을 수행합니다. 빅데이터 분석기사는 데이터를 수집하고 정리하는 데이터 전처리 과정부터 데이터 모델링, 예측 분석, 시각화, 결과 해석 등 다양한 작업을 수행합니다. 이를 위해 데이터베이스, 데이터 마이닝, 통계학, 머신 러닝, 데이터 시각화 등의 지식과.. 2023. 5. 22.
728x90
반응형