728x90
반응형

데이터 프레임(DataFrame)

1️⃣ 여러 개의 Series가 모여서 행과 열을 이룬 데이터

import pandas as pd

gdp_dict = {
  'china': 1409250000,
  'japan': 516700000,
  'korea': 169320000,
  'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
  'gdp': gdp,
  'population': population
})

 

2️⃣ Dictionary를 활용하여 DataFrame 생성 가능

ata = {
  'country': ['china', 'japan', 'korea', 'usa'],
  'gdp': [1409250000, 516700000, 169320000, 2041280000],
  'population': [141500, 12718, 5180, 32676]
}
country = pd.DataFrame(data)
country = country.set_index('country')

 


💡 딕셔너리, 시리즈, 데이터 프레임

✔ 딕셔너리 : 중괄호{}로 표시 data = {key:value}
✔ 시리즈 : 배열 series([1,2,3,4])
✔ 데이터 프레임 : 인덱스와 시리즈 데이터로 구성

딕셔너리에서 시리즈를 생성하고, 시리즈에서 데이터 프레임 생성하는 것도 가능하지만 
딕셔너리에서 바로 데이터 프레임 생성하는 것도 가능!

DataFrame 속성을 확인하는 방법

print(country.shape) # (4, 2) value를 제외한 뚜껑의 모양
print(country.size) # 8 value의 사이즈
print(country.ndim) # 2 몇 차원의 데이터인가
print(country.values) 
# [[1409250000 141500] 
# [ 516700000 12718] 
# [ 169320000 5180] 
# [2041280000 32676]]

 


DataFrame의 index와 column에 이름 지정(shape의 이름 지정)

country.index.name = "Country" # 인덱스에 이름 지정
country.columns.name = "Info" # 컬럼에 이름 지정

print(country.index)
# Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country’)
print(country.columns)
# Index(['gdp', 'population'], dtype='object', name='Info')

 


데이터 프레임 저장 및 불러오기 가능

country.to_csv("./country.csv")
country.to_excel("country.xlsx")
country = pd.read_csv("./country.csv")
country = pd.read_excel("country.xlsx")

 


📌 예시

import numpy as np
import pandas as pd

# 두 개의 시리즈 데이터가 있음
print("Population series data:")
population_dict = {
    'korea': 5180,
    'japan': 12718,
    'china': 141500,
    'usa': 32676
}
population = pd.Series(population_dict)
print(population, "\n")

print("GDP series data:")
gdp_dict = {
    'korea': 169320000,
    'japan': 516700000,
    'china': 1409250000,
    'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
print(gdp, "\n")

# 이곳에서 2개의 시리즈 값이 들어간 데이터프레임을 생성
print("Country DataFrame")
country = pd.DataFrame({
  'population' : population,
  'gdp' : gdp
})

print(country)

csv는 comma separated value로 컴마로 구분된 값을 의미(참고 👇)

https://carpet-part1.tistory.com/409

 

CSV와 EXCEL 차이점

CSV와 EXCEL 차이 EXCEL CSV 통합 문서의 모든 워크 시트에 대한 정보가 들어있는 이진파일 값이 쉼표로 구분 된 일반 텍스트 형식 .xls 또는 .xlsx 파일을 읽을 수 있는 프로그램에서만 읽을 수 있음 여

carpet-part1.tistory.com

반응형

'프로그래밍 > Python' 카테고리의 다른 글

Pandas 데이터프레임 정렬  (0) 2021.09.28
Pandas 데이터 선택 및 변경하기  (0) 2021.09.27
Pandas와 Series 데이터란?  (0) 2021.09.23
Numpy 배열의 속성  (0) 2021.09.14
Numpy 배열의 데이터 타입  (0) 2021.09.13
복사했습니다!