728x90
반응형
데이터 프레임(DataFrame)
1️⃣ 여러 개의 Series가 모여서 행과 열을 이룬 데이터
import pandas as pd
gdp_dict = {
'china': 1409250000,
'japan': 516700000,
'korea': 169320000,
'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
'gdp': gdp,
'population': population
})
2️⃣ Dictionary를 활용하여 DataFrame 생성 가능
ata = {
'country': ['china', 'japan', 'korea', 'usa'],
'gdp': [1409250000, 516700000, 169320000, 2041280000],
'population': [141500, 12718, 5180, 32676]
}
country = pd.DataFrame(data)
country = country.set_index('country')
💡 딕셔너리, 시리즈, 데이터 프레임
✔ 딕셔너리 : 중괄호{}로 표시 data = {key:value}
✔ 시리즈 : 배열 series([1,2,3,4])
✔ 데이터 프레임 : 인덱스와 시리즈 데이터로 구성
딕셔너리에서 시리즈를 생성하고, 시리즈에서 데이터 프레임 생성하는 것도 가능하지만
딕셔너리에서 바로 데이터 프레임 생성하는 것도 가능!
DataFrame 속성을 확인하는 방법
print(country.shape) # (4, 2) value를 제외한 뚜껑의 모양
print(country.size) # 8 value의 사이즈
print(country.ndim) # 2 몇 차원의 데이터인가
print(country.values)
# [[1409250000 141500]
# [ 516700000 12718]
# [ 169320000 5180]
# [2041280000 32676]]
DataFrame의 index와 column에 이름 지정(shape의 이름 지정)
country.index.name = "Country" # 인덱스에 이름 지정
country.columns.name = "Info" # 컬럼에 이름 지정
print(country.index)
# Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country’)
print(country.columns)
# Index(['gdp', 'population'], dtype='object', name='Info')
데이터 프레임 저장 및 불러오기 가능
country.to_csv("./country.csv")
country.to_excel("country.xlsx")
country = pd.read_csv("./country.csv")
country = pd.read_excel("country.xlsx")
📌 예시
import numpy as np
import pandas as pd
# 두 개의 시리즈 데이터가 있음
print("Population series data:")
population_dict = {
'korea': 5180,
'japan': 12718,
'china': 141500,
'usa': 32676
}
population = pd.Series(population_dict)
print(population, "\n")
print("GDP series data:")
gdp_dict = {
'korea': 169320000,
'japan': 516700000,
'china': 1409250000,
'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
print(gdp, "\n")
# 이곳에서 2개의 시리즈 값이 들어간 데이터프레임을 생성
print("Country DataFrame")
country = pd.DataFrame({
'population' : population,
'gdp' : gdp
})
print(country)
csv는 comma separated value로 컴마로 구분된 값을 의미(참고 👇)
반응형
'프로그래밍 > Python' 카테고리의 다른 글
Pandas 데이터프레임 정렬 (0) | 2021.09.28 |
---|---|
Pandas 데이터 선택 및 변경하기 (0) | 2021.09.27 |
Pandas와 Series 데이터란? (0) | 2021.09.23 |
Numpy 배열의 속성 (0) | 2021.09.14 |
Numpy 배열의 데이터 타입 (0) | 2021.09.13 |