일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- Tableau
- 인공지능
- pandas
- Python
- selenium
- Udemy
- 파이썬
- Word Cloud
- 태블로
- 데이터
- numpy
- konlpy
- scikit-learn
- input
- pyspark
- 데이터분석
- iNT
- 크롤링
- ionehotencoding
- Okt
- 데이터 분석
- SQL
- 형태소분석기
- 시각화
- Today
- Total
목록데청캠 연세대 (10)
반전공자

나는 작년 에 참여했었다. 연세대 과정에 지원해서 활동했었고, 비대면이라 너무 아쉬웠던 기억이 있다. 그런데 올해는 대면으로 진행할 듯 하다. (확실히 말할 수 있는 것은 연세대에서 대면을 할 것 같다는 것...!) 작년에 데청캠 수료 후 보아즈에 지원해서 합격했고, 보아즈 담당 교수님 랩실에 지원해 2022년 2월부터 학부생 인턴으로 일하게 되었다. 이미 알고 있었지만, 데청캠 연세대 과정 담당 교수님이 보아즈 담당 교수님이셨다. 들어가서 데이터 변환 일이 끝날 즈음에 데청캠 조교 하겠냐고 물어보셔서 하겠습니당! 했다. 고래서.. 어쨌든, 올해 [데청캠 2022 연세대 과정]에 조교로 참여하게 되었다! 대면으로 한다는 사실에 약간 설렌다. ㅎㅎ 잘 가르쳐드리려면 배웠던 내용 한번 더 봐야할 것 같다..!

df4 = DataFrame({'Class': ['IoT','Network', 'Economy','Big Data', 'Cloud'], 'Year': [2018, 2017, 2018, 2018, 2019], 'Price': [100, 125, 132, 312, 250], 'Location': ['Korea','Korea', 'Korea', 'US','Korea']}, index=['C01','C02','C03', 'C04', 'C05']) 원하는 컬럼만 조회 데이터프레임 열 추출, 조회 df4['Class'] * 하나의 컬럼만 선택했기 때문에 시리즈 형식으로 나온다 → 보기 쉽게, 데이터프레임 형식으로 어떻게 보일 수 있을까? df4[['Class']] # Class와 Price 조회 df4[['Clas..

데이터프레임의 기본 함수 info() : 데이터의 기본 정보 , 데이터 개관 df2.info() 컬럼 명이 무엇인지, null값이 존재하는지, 데이터 값 타입은 무엇인지 보여준다. describe() : 기본 통계 정보를 컬럼 별로 보여준다. df2.describe() 통계 함수 : mean(), sum(), max(), min(), quantile() ... df2.mean() ♪ 연도 별로 구하고 싶다. df2.mean(axis=1) : 행을 기준으로 평균을 구하라 df2.quantile(0.25) sample() : 일부 데이터를 랜덤으로 선택 (기본은 컬럼기준이다.) df2.sample() df2.sample(2) 도시를 랜덤으로 두개 뽑아보고 싶다. df2.sample(2, axis=1) 만약 ..

DataFrame의 속성 조회하기 * 속성을 조회할 때에는 ()를 사용하지 않는다. index : 데이터프레임의 인덱스를 리스트로 반환한다. df2.index columns : 데이터프레임의 컬럼명을 리스트로 반환한다. df2.columns values : 데이터프레임의 데이터를 반환한다. df2.values 인덱스(행)를 기준으로 값을 반환한다. shape : 행과 열의 개수를 튜플로 반환 df2.shape 3행에 5열로 이루어져있음을 알 수 있다. 표를 다시한번 살펴보면, 서울의 값만 실수로 표현되어 있다. ** 데이터프레임은 여러 개의 시리즈로 이루어져 있다. 서울의 연도별 값 중 하나가 실수였기 때문에 모든 값이 실수형태로 나온다. T : 행과 열을 바꾸기 df.T 연도가 컬럼명이 되었다. 그런데..

import pandas as pd from pandas import Series, DataFrame # 데이터프레임 인자 pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) # 데이터프레임 생성 data = DataFrame(data=[[1, 2, 3], ['kim','park','lee']], index=['A','B'], columns = ['x','y','z']) data에 2차원 리스트를 넣었다. 시리즈와는 다르게 컬럼을 추가해주어야 한다. # Dict 타입 데이터로 데이터프레임 생성 인구통계 = {'서울': [950, 945, 938.5], '대전':[50, 151, 145], '대구':[85, 88, 92], '..

import random import pandas as pd from pandas import Series * 시리즈 앞에 pd를 붙이기 번거로우니 그냥 Series를 임포트했다. cf) 리스트 편하게 만들기? list('ABCDEFG') list 함수를 사용하면 알아서 값을 나눠서 넣어준다. # 데이터 생성 sample = random.sample(range((1,100),26) data = Series(sample, index = list('ABCDEFGHIJKLMNOPRSTUVWXYZ')) # 인덱스 라벨이 'K'인 항목 선택 sample['K'] # 인덱스 라벨이 'A','F','C' 인 항목 선택 * 여러개의 인덱스를 찾고 싶을 때에는 리스트 안에 넣어준다. sample[['A','F','C']..

Series 인덱싱 1. 특정 인덱스 선택 sample[4] sample['e'] 숫자, 문자 인덱스 모두 가능하다. 2. 여러 인덱스를 동시에 선택 : 리스트로 전달 sample[[2, 4, 6]] 겉 대괄호는 색인, 안 대괄호는 리스트를 의미한다. 물론 문자인덱스도 여러개 가능하다. sample[['c','e','g']] 다른 형식으로도 인덱싱 가능하다. sample['c':'g'] c 부터 g 까지의 인덱스와 값을 반환한다. * 문자 인덱스는 마지막 인덱스까지도 포함하지만, 숫자 인덱스는 마지막 인덱스를 포함하지 않는다. 3. 인덱스 슬라이싱 : 주어진 범위에 해당하는 데이터 선택 sample[0:3] 위의 문자인덱스를 슬라이싱한 경우에는 마지막 인덱스를 포함하였다. 숫자인덱스는 0:3으로 지정했지..

▣ 시리즈에 활용할 수 있는 method describe() : 여러 통계정보를 제공 (count, mean, std, min, ... ) sample.describe() 통계함수 : max(), min(), mean() sample.max() sample.min() sample.mean() add_prefix() 인덱스명 앞에 추가하기 sample.add_prefix('big-') value_counts() sample.value_counts() # 갯수 내림차순, 오름차순 정렬 sample.value_counts(ascending=False) False : 내림차순 정렬 True : 오름차순 정렬 cf) 만약 그냥 True만 입력한다면? sample.value_counts(True) value_cou..

▣ 시리즈에 활용할 수 있는 attribute index : 시리즈의 인덱스만 가져온다. sample.index values : 시리즈의 값만 가져온다. sample.values size : 시리즈의 크기(데이터의 길이) 를 반환한다. sample.size dtype : 값의 형식을 알려준다. sample.dtype cf) type(): 변수의 타입을 알려준다. type(sample) pd.Series(['a','b','c']).dtype : 데이터의 형식이 O 라는 것은 Object 라는 의미. Series([3, 5.2, 'big','data']).dtype : 값에 숫자와 문자가 섞여있는 경우에도 Object라고 보여준다. Series([5.3, 1]).dtype 숫자만 존재하며 그 중 실수가 포함..

Series - 인덱스와 값으로 구성되어있다. - 모든 데이터타입 가능 Series([3, 5, 'big','data',[1, 2, 3], (7, 8, 9)]) - 시리즈의 values는 numpy의 ndarray 객체이다. data3.values type(data3.values) 1) 리스트로 시리즈 생성 data = [3, 5, 1, 2] pd.Series(data) 왼쪽에 인덱스번호가 부여되었고, 오른쪽에 값이 들어가있다. 2) 튜플로 시리즈 생성 arr2 = (3, 5, 1, 2) data2 = Series(arr2) 3) Dict로 시리즈 생성 arr3 = {'a':3,'b':5, 'c':1, 'd':2} data3 = Series(arr3) 이미 인덱스와 값이 존재했기 때문에 그 인덱스와 값을..