728x90 반응형 빅데이터분석기사11 [빅분기] 데이터 이상치 찾기 IQR 확인 [빅분기] 이상치를 찾는 방법 목차 IQR 개념 핵심 키워드 IQR = Q3 - Q1 기준은 중앙치 Q1 = 25% 지점 Q3 = 75% 지점 이상치의 범위 Q1-1.5*IQR 이하 Q1+1.5*IQR 이상 IQR은 사분위수만 이해하면 어렵지 않습니다. 사분위수는 전체 데이터를 25%씩 4등분한 것을 말합니다. Q1 25% Q2 50% Q3 75% Q4 100% 이중 25%~75%의 범위가 Q1~Q3에 속합니다. Q3-Q1을 하면 75%해당하는 값에서 Q1에 해당하는 값을 빼게 되는데, 이게 기준점이 되어 데이터의 50%에 속하는 범위의 특정 값을 말하게 됩니다. 왜 그런지에 대해서는 데이터를 정리하는 많은 방법 중 이러한 방법이 있다는 정도로만 기억하시면 좋습니다. 중앙치를 기준으로 데이터의 분포 확률.. 2023. 11. 27. [빅데이터분석기사] 제 1유형 기출 파해치기 - 2 | 풀이 모음 | 여러 방식 | 핵심정리 Q. 데이터셋 (basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후,'age'컬럼에서 80 이상인 데이터의 'f5' 컬럼 평균값 구하기. 1) 데이터셋 불러오기 언제나 처럼 데이터를 먼저 불러와 줍니다. 파일 위치는 사용하시는 연습 프로그램에 따라 다를 수 있습니다. import pandas as pd data = pd.read_csv('basic1.csv') 2) 상위 데이터 구하기 : 정렬 메서드 .sort 메서드를 쓰거나 sorted() 함수를 쓰면 됩니다. 빅데이터를 공부하다보니, 그럼 정처기 때 왜 버블 정렬, 순차정렬 그런거 했는지 이렇게 편하게 만들어 둔게 있으면 이런거 쓰면 참 좋았을 걸 싶네요..ㅎ 중요한건.. 2023. 6. 22. DataFrame을 다른 데이터 타입으로 바꾸는 방법 (CSV파일로 저장하는 방법 포함) 빅데이터를 분석할 때 사용하는 데이터 타입은 주로 DataFrame입니다. DataFrame은 테이블 형태의 2차원 데이터 구조로, 여러 열(column)로 구성되어 있습니다. 이러한 형태의 데이터 구조는 빅데이터를 효율적으로 다룰 수 있도록 설계되었습니다. DataFrame은 Pandas 라이브러리에서 제공되며, 데이터의 구조화, 필터링, 그룹화, 조인 등 다양한 작업을 수행할 수 있습니다. DataFrame은 대용량의 데이터를 처리하고 분석하는 데에 효율적이며, 복잡한 연산이나 집계 작업에도 용이합니다. 또한, DataFrame은 다양한 데이터 타입을 갖는 열을 가질 수 있기 때문에 빅데이터의 다양한 속성을 표현할 수 있습니다. 하지만, 때에 따라 데이터프레임 자체로 분석하는 것보다 효율적으로 다루기.. 2023. 6. 20. [빅데이터 분석기사] 제2유형 문제 풀기 - 체험하기 문제 실제 시험 환경을 확인할 수 있는 곳에서 나오는 문제를 풀어보면서 감을 익혀보려고 합니다. 빅데이터 분석기사에서 쓰는 라이브러리가 생각보단 많지 않지만, 코딩을 처음하면 생각보다 복잡할 수 있습니다. 문제 mtcars 데이터셋(data/mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. * dataset 위치 : data/mtcars.csv 풀이 과정 데이터 불러오기 데이터 불러올 pandas 설치 #panda import 데이터를 불러오기 위한 라이브러리 import pandas as pd #sklearn의 MinMaxScaler import Min-Max를 위한 라이브러리 panda로 데이터 불러오기 #데이터는.. 2023. 6. 19. [빅데이터 분석기사] python 기본 데이터 다루기 파이썬으로 데이터를 기본적으로 다룰 줄 알아야 시험 문제를 제출할 수 있습니다. 데이터를 불러오고 가공하는 것이 가장 중요한 파트일 수 있으니, 자주 살펴봐야할 것 같습니다. 시간이 많이 없을 직장인 분들은 반복적으로 확인해보시길 바랍니다. 데이터 불러오기 local이건 cloud건 데이터를 불러와야 분석을 할 수 있습니다. 데이터를 불러오는 건 pandas를 이용해야합니다. import pandas as pd는 필수! [임의 변수명] = pd.read_csv('경로') 불러온 데이터 확인하기 기본적으로 print 문안에 변수를 넣으면 출력이 됩니다. 하지만, 우리는 다양한 것들이 알고 싶죠? 시작 전 알아야할 문법의 주요 요소 []와 ()는 Python에서 중요한 역할을 하는 기호입니다. .(dot)의.. 2023. 6. 19. [빅데이터 분석] 실제 시험환경과 같이 연습하기 구름 | 온코더 | 프로그래머스 [빅데이터 분석] 쥬피터노트 말고 클라우드 프로그램 구름, 온코더, 프로그래머스 목차 빅데이터 분석 기사 실기 연습을 위한 프로그램 빅데이터 분석기사 실기 책에서는 쥬피터노트를 추천해줬지만, 아주 큰 단점이 있습니다. 바로 시험 환경과는 다르다는 것입니다. 그렇다면, 우리도 시험환경과 같이 준비해야할 텐데, 클라우드를 이용하면 됩니다. 가장 좋은 것은 시험환경과 같은 구름 IDE를 이용하는 것입니다. 아래 링크가 시험환경입니다. 소개 중 첫 번째는 시험환경을 예시로 들고 있습니다. 구름(goorm) Goorm은 한국의 클라우드 기반 개발 환경 플랫폼입니다. 이를 통해 개발자들은 웹 브라우저 상에서 코드 작성, 디버깅, 컴파일 등을 수행할 수 있습니다. 또한 Goorm은 개발자들 간의 협업을 용이하게 하고.. 2023. 6. 18. [빅데이터 분석] 쥬피터 노트란? | 설치방법 | 활용방법 [빅데이터 분석] 쥬피터 노트란? | 설치방법 | 활용방법 목차 쥬피터노트란? 쥬피터 노트 빅데이터 분석기사에서 파이썬을 통한 데이터 분석을 위해 쓰는 도구 중 하나입니다. 아나콘다를 이용해 설치하여 사용합니다. 쥬피터 노트(Jupyter Note)는 데이터 과학과 프로그래밍 분야에서 널리 사용되는 개발 환경입니다. 이 환경은 인터랙티브한 작업을 가능하게 해주며, 코드 작성, 실행, 결과 시각화, 문서화, 협업 등의 다양한 작업을 지원합니다. 쥬피터 노트의 주요 기능은 "노트북"이라고 불리는 문서 형식입니다. 노트북은 웹 브라우저에서 실행되는 환경에서 코드와 텍스트, 이미지, 그래프 등을 포함한 문서를 작성하고 실행할 수 있습니다. 노트북은 여러 개의 셀(cell)로 구성되며, 각 셀은 코드 실행 또는 .. 2023. 6. 5. [무턱대고 빅데이터분석기사] SciPy란? | 상관분석 | 회귀분석 [무턱대고 빅데이터분석기사] SciPy란? | 상관분석 | 회귀분석 빅데이터 분석기사에서 SciPy를 이용한 상관계수는 pearson, Spearman, Kendall's 상관계수입니다. 상관은 두 변수의 변화가 일정하게 증가 혹은 감소하는 지에 대한 것을 확인하는 것입니다. 상관변수(예. Pearson 값)으로 얼마나 상관이 있는지 알 수 있습니다. 상관분석이란 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법입니다. 상관분석에서는 두 변수 사이의 관계의 강도와 방향을 나타내기 위해 상관계수라는 수치를 사용합니다. 상관계수는 -1과 1 사이의 값을 가지며, 양의 상관관계일 경우 +값, 음의 상관관계일 경우 -값을 가집니다. 상관계수가 0이면 두 변수 사이에 선형적인 관계가 없다는 의미입니다.. 2023. 6. 4. [무턱대고 빅데이터분석기사] Pandas란? | 명령어 | 분석방법 | 활용 예시 [무턱대고 빅데이터분석기사] Pandas란? | 명령어 | 분석방법 | 활용 예시 목차 Pandas란? Pandas는 파이썬에서 사용되는 데이터 조작과 분석을 위한 라이브러리입니다. Pandas는 효율적인 데이터 구조와 데이터 처리 기능을 제공하여 데이터를 쉽게 다룰 수 있도록 도와줍니다. 핵심 데이터 구조는 "DataFrame"입니다. DataFrame은 행과 열을 가지는 테이블 형태의 2차원 데이터 구조입니다. 이를 통해 데이터를 효율적으로 조작하고 필터링, 정렬, 그룹화, 통계 분석 등 다양한 작업을 수행할 수 있습니다. 다양한 데이터 소스와 상호작용할 수 있습니다. CSV, Excel, SQL 데이터베이스, JSON 등 다양한 형식의 데이터를 가져와 처리할 수 있습니다. 또한, 데이터를 다양한 형.. 2023. 6. 2. [무턱대고 빅데이터 분석기사] Numpy를 활용한 데이터 다루기 | 설치부터 활용까지 | pandas와의 차이 [무턱대고 빅데이터 분석기사] Numpy를 활용한 데이터 다루기 | 설치부터 활용까지 | pandas와의 차이 numpy는 반복문 없이 벡터, 행렬 계산이 가능한 패키지입니다. 행렬을 쉽게 만들고 가공할 수 있는 것이 특징입니다. 기본 통계 연산이 가능하여 빅데이터 분석에 자주 이용됩니다. 목차 Numpy 설치 및 실행 numpy 실행은 패키지 설치와 동일하다. numpy 설치하기 쥬피터 노트북(Jupyter Notebook)에서 설치하는 경우: !pip install numpy 파이썬 스크립트나 터미널에서 설치하는 경우: pip install numpy numpy 불러오기 import numpy as np Numpy 특징 NumPy(Numerical Python) 라이브러리는 통계 계산을 위한 몇 가지.. 2023. 5. 31. 아나콘다 및 파이썬 설치(feat. 프롬프트, 빅분기) 아나콘다 및 파이썬 설치(feat. 프롬프트, 빅분기) 파이썬은 웹 개발에서나 쓰는 줄 알았는데, 빅데이터 분석에도 쓰이는 걸 처음 알았다. 오픈소스라서 나중에도 쓸 수 있을 것이다. 파이참이나 다른 IDE를 쓸 수도 있겠지만, 아나콘다 프롬프트를 통해 생성한 쥬피터 노트북이 더 많이 쓰이는 듯하다. 빅분기를 볼 예정인 분들은 Groom에 들어가서 연습해도 무방할 듯하다. 목차 왜 파이썬을 직접 설치하지 않고, 아나콘다에서 다운로드 받는가? 개발자는 아니지만, 파이썬을 직접 받을 수 있는 것으로 안다. 파이썬 홈페이지에 나와 있기 때문이다.(https://www.python.org/) 그런데, 빅분기에서는 아나콘다로 받으라고 한다 왜인지 궁금했다. 구글링해본 결과 이유는 다음과 같다. 편리한 패키지 관리.. 2023. 5. 24. 이전 1 다음 728x90 반응형