요즘 텍스트 기반 이미지 편집 모델을 다루다 보면, 공개 데이터셋의 문서 부족과 비상업적 사용 조건의 모호함 때문에 한참을 헤매기 쉽죠. 특히 Pico Banana 400K 이미지 편집 데이터셋 GitHub 비상업적 연구용 다운로드 를 시도하는 분이라면 “어디에서, 어떻게 받아야 하지?”부터 막히기 마련입니다. 오늘은 그런 분들을 위해 Apple 연구진이 공개한 이 대규모 데이터셋을 합법적·기술적으로 내려받고 검증·활용하는 단계별 가이드를 정리했습니다.
글의 순서
Pico-Banana-400K 데이터셋 개요
Pico-Banana-400K는 Apple이 공개한 약 40만 개의 텍스트 기반 이미지 편집 예시로 구성된 대규모 데이터셋입니다.
데이터는 총 8개 카테고리와 35개의 세부 편집 유형을 포함하며, 색상 조정부터 사람을 캐릭터 스타일로 변환하는 고난도 작업까지 폭넓게 다뤄집니다.
데이터 구조와 주요 통계는 아래와 같습니다.
| 구성 항목 | 예시 수 / 설명 |
|---|---|
| 단일 턴(SFT) | 약 258,000 — 모델 지도학습용 기본 편집 |
| 선호도 쌍(Preference) | 약 56,000 — 성공/실패 비교 쌍으로 제공 |
| 다중 턴(Multi-turn) | 약 72,000 — 단계적 편집 시퀀스 저장 |
| 편집 평가 기준 | judge 점수 ≥ 0.7만 성공으로 포함 |
| 원본 소스 | OpenImages (개별 라이선스 존재) |
Pico Banana 400K GitHub 저장소 찾기와 다운로드 준비
Pico-Banana-400K는 공식적으로 GitHub를 통해 배포됩니다. 검색 시 “Project page” 또는 “Data release” 링크가 논문 페이지의 말미에 함께 표기되어 있으므로, 먼저 arXiv에서 프로젝트 페이지를 확인하세요.
리포지터리에 도달했다면 다음 구성을 먼저 점검해야 합니다.
- README.md — 데이터 설명 및 다운로드 절차
- LICENSE / TERMS.txt — 비상업적 연구 조건 명시
- releases 탭 — 대용량 파일 링크 또는 외부 버킷 주소 제공
- scripts/download_*.sh — 자동 다운로드 스크립트 확인
코드만 복제하려면 다음 명령으로 가능합니다.
git clone https://github.com/<owner>/<pico-banana-repo>.git
만약 발표 자료에 S3나 GCS 버킷 링크가 있다면 보다 안정적이고 빠르게 받을 수 있습니다.
# AWS S3 예시
aws s3 sync s3://<bucket>/pico-banana-400k ./local_dir --no-sign-request --exact-timestamps
# Google Cloud Storage 예시
gsutil -m cp -r gs://<bucket>/pico-banana-400k ./local_dir
대용량 파일은 여러 파트로 나뉘므로, aria2c로 병렬 다운로드하면 속도를 크게 높일 수 있습니다.
aria2c -x16 -s16 -k1M "https://github.com/<owner>/<repo>/releases/download/v1/pico-banana-part01.tar.gz"
데이터 구성과 포맷
데이터셋을 받으면 보통 아래와 같은 폴더 구조로 정리됩니다.
| 경로 | 내용 |
|---|---|
| images/originals/ | OpenImages 원본 이미지 |
| images/edits/…/ | 편집 결과 이미지(턴별 저장) |
| annotations/instructions_typeI.jsonl | 긴 지시문(모델 프롬프트 스타일) |
| annotations/instructions_typeII.jsonl | 짧은 지시문(사용자 스타일) |
| annotations/judge_scores.jsonl | 평가 점수 및 성공 여부 플래그(success_flag) |
| annotations/preferences.jsonl | 선호도 학습용 positive/negative 쌍 정보 |
| annotations/multi_turns.jsonl | 다단계 편집 역사(sequence) 기록 |
무결성 검증과 용량 계획
데이터가 수백 GB 단위로 크기 때문에 다운로드 후 반드시 체크섬 검증을 거쳐야 합니다.
예시:
sha256sum -c SHA256SUMS.txt
gpg --verify pico-banana-400k.tar.gz.sig pico-banana-400k.tar.gz
평균 JPEG 크기를 0.5 MB로 가정하면 약 200 GB, 고해상도 기준(1 MB)이면 최대 400 GB 이상이 필요합니다.
원본과 편집본 전체를 보관하려면 최소 1 TB 정도의 저장 공간을 확보하는 것이 안전합니다.
비상업적 연구용 라이선스 및 주의사항
Pico-Banana-400K는 비상업적 연구용(Non-Commercial Research Only) 조건으로 공개되어 있습니다.
이는 학문적, 교육적 목적으로는 자유롭게 사용 가능하지만 기업 서비스나 상업 배포에는 사용할 수 없음을 의미합니다.
데이터 출처인 OpenImages의 각 이미지에는 고유한 라이선스(CC BY 계열)가 적용되므로, 해당 ID를 통해 원저작권을 반드시 확인해야 합니다.
연구 논문·코드 공개 시 다음 문구를 포함하는 것을 권장합니다.
“This research uses the Pico-Banana-400K dataset (arXiv:2510.19808) for non-commercial research purposes; original images are from OpenImages under respective licenses.”
전처리 및 로더 구성 팁
대규모 학습 환경에서는 WebDataset 또는 LMDB 포맷으로 데이터를 변환하여 I/O 성능을 높이는 것이 핵심입니다.
샘플 파이썬 변환 스크립트 예시는 다음과 같습니다.
import json, os, webdataset as wds
from PIL import Image
from glob import glob
def make_shards(jsonl_path, out_dir):
os.makedirs(out_dir, exist_ok=True)
with open(jsonl_path) as f:
samples = [json.loads(line) for line in f]
shard = wds.TarWriter(f"{out_dir}/pico-banana-shard-%06d.tar" % 0)
for i, s in enumerate(samples):
img_path = s["edited_image_path"]
img = open(img_path, "rb").read()
shard.write({
"__key__": str(i),
"jpg": img,
"json": json.dumps(s)
})
shard.close()
자동 평가 점수를 활용해 고품질 샘플만 선별(score >= 0.7) 후 샤드화하면 더 깔끔한 학습 세트를 만들 수 있습니다.
인용 및 재사용 안내
학술 출판물이나 프로젝트에서 활용할 경우 아래 인용 형식을 사용하세요.
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing, arXiv:2510.19808 (2025)
또한 GitHub 리포지터리에 별도의 CITATION.bib 파일이 있다면 반드시 그 포맷을 우선 적용하세요.
요약 체크리스트
| 항목 | 실행여부 | |
|---|---|---|
| README 및 LICENSE 확인 | [ ] 완료 | |
| S3/GCS 등 외부 스토리지 링크 확보 | [ ] 완료 | |
| 1 TB 이상 저장공간 확보 | [ ] 완료 | |
| wget -c 또는 aria2 병렬다운로드 설정 | [ ] 완료 | |
| 체크섬 검증 수행(SHA256SUMS.txt) | [ ] 완료 td> | |
| judge_score≥0.7 필터링으로 전처리 완료 | [ ] 완료 | |
| CITATION 문구 포함 | [ ] 완료 |
Pico-Banana-400K는 단순히 이미지를 모은 컬렉션이 아니라, "편집 품질 평가까지 완비된 지도 학습 기반 자원"입니다.
GitHub에서 올바른 절차로 내려받고 체크섬을 검증한 뒤, WebDataset 형태로 변환해 두면 텍스트 기반 편집 모델 실험의 신뢰성과 효율성을 확실히 높일 수 있을 것입니다.
자주하는 질문
Pico-Banana-400K 데이터셋은 어디서 내려받을 수 있나요?
git clone https://github.com/<owner>/<pico-banana-repo>.git
대용량 파일은 제공된 S3/GCS 주소로 aws s3 sync 또는 gsutil -m cp를 사용하거나, releases에 올라온 분할 URL을 aria2c로 병렬 다운로드하면 속도가 빠릅니다.
비상업적 연구용(Non-Commercial Research Only) 라이선스 조건에서 주의할 점은 무엇인가요?
다운로드 후 어떻게 검증·전처리해서 모델 학습에 준비하나요?
sha256sum -c SHA256SUMS.txt
gpg –verify pico-banana-400k.tar.gz.sig pico-banana-400k.tar.gz
를 수행하세요. (2) 저장공간 계획: 평균 0.5–1 MB/jpeg 기준으로 전체는 수백 GB~400GB, 원본·편집본 보관 시 최소 1TB 권장. (3) 품질 필터링: annotations/judge_scores.jsonl의 judge_score≥0.7 필터로 고품질 샘플만 선별. (4) 데이터 포맷 변환: WebDataset나 LMDB로 샤드화해 I/O 성능 개선(예시: Python + webdataset tar 작성 스크립트). (5) 병렬 다운로드 및 복제: aws s3 sync –no-sign-request, gsutil -m cp, aria2c -x16 등 사용. (6) 최종적으로 CITATION 및 LICENSE 문구를 프로젝트에 포함하고 OpenImages 라이선스 요구사항을 준수하세요.



