식품재판의 데이터베이스 저장소입니다.
data cleaning on foodsafetykorea food composition database
식약처의 식품영양성분 DB 통합본(농축산물, 수산물, 가공식품, 음식 합본)을 정제하였습니다.
- 총 52940행, 235칼럼
- 44471가지의 식품을 218개의 영양성분 기준으로 추출한 자료
-
으로 기록된 값 : 수치가 애매하거나 측정되지 않음
g, mL 단위가 서로 일치하지 않거나, 오기입 된 경우
혹은 결측값인 경우 `식품대분류` 기준에 맞춰 새로 기입
식약처에서 영양소 기준치표를 통해 명시한 기준과 DB에서 사용하는 단위가 다를 때,
식품을 직접 찾아보고 비교 후 맞는 단위(기준단위)로 값 옮겨주기
총 식이섬유(mg)
,칼륨(g)
,나이아신(NE)(㎎ NE)
,콜린(g)
비타민A(mcg)
,비타민E(mg) 중 가공식품
,비타민K(mg)
,비타민B1(mcg)
,비타민B2(mcg)
,비타민B6(mcg)
,비타민B12(mg)
,콜레스테롤(g)
,판토텐산(mcg)
,비타민C(g)
영양성분이 더 많이 쓰이는 단위로 변환 가능할 경우 변환하여 한가지 단위 값만 보존
수분(%)
: 식이섬유 구조상 수분을 가두고 있는데, 식이섬유 추출 후 건조 과정에서 발생하는 수분량임. 따라서 우리가 생각하는 수분(g)과 다른 값. % 값은 별도 테이블로 분리함.총 식이섬유(%)
: ~국립수산과학원에서 추출한 식이섬유는(%/100g)기준이기 때문에 %를 g으로 단위 변환 가능. g로 단위 변환하고 % 칼럼 삭제 - 식이섬유 g, % 둘 다 있는 행(13행) - 5행은 수분도 둘 다 값 있는 수산물-해조류이므로 수분(%) 테이블에 같이 분리 - 8행은 g이 실제 값이고 %는 1일 영양성분 기준치에 대한 비율 값이므로 삭제 가능철(mcg)
: 모두 품목대표 식품으로, mg로 단위 변환 가능구리(mcg)
,망간(mcg)
: 모두 식품대분류 값이 환자용 식품, 성장기용 조제식, 영아용 등. 기준 단위인 mg로 단위 변환총 아미노산(g)
: 기준 단위 mg로 단위 변환나이아신(mg NE)
: 가공품에서 나이아신 당량을 표기하는 단위로,나이아신(NE)(mg)
칼럼으로 값 복사 후 드랍. 칼럼명을(NE)(mg)
로 선택한 이유는나이아신(mg)
칼럼과 단위가 다른 것이 아니라 개념이 다른 것을 나타내기 위함
- 포화, 불포화 지방산 아래 관련 칼럼이 총 93개
총 포화지방산(%)
,총 단일불포화지방산(%)
,총 다중불포화지방산(%)
: 식이섬유 같이, 수산물이 %로 표기. (%/100g) 기준이므로 g으로 변환 가능- 다만 수산물이 아닌
가공식품
의 경우 %에 기입된 값이 1일 영양성분 기준치에 대한 비율 값이므로, 삭제 가능 (13행)
- 다만 수산물이 아닌
- %, g을 사용하는 칼럼 모두 mg으로 단위 변환 (%는 100g 기준이기 떄문에 변환 가능)
비타민 E(mg)
,비타민 E(mg a-TE)
: DB에서 다른 칼럼이 두 단위를 모두 참조하기 때문에, 의미를 살리고자 한 칼럼으로 병합 후 양, 단위를 각각 나타내는 칼럼 2개로 분할비타민 E(mg)
,비타민 E(mg a-TE)
>>비타민 E
,비타민 E(단위)
22/05/20 완료!
- 현재 칼럼명이 성분(단위)로 2가지 값을 갖고 있는데, 성분만 칼럼명에 남기고 단위는 단위테이블을 별도로 생성하여 분리