-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathcreate_dataset.py
More file actions
46 lines (36 loc) · 1.94 KB
/
create_dataset.py
File metadata and controls
46 lines (36 loc) · 1.94 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
from clearml import Dataset
import os
# --- 1. 修改这里:指向你准备好的“父文件夹” ---
# 这个路径就是你在第1部分中创建的那个包含了所有序列的主文件夹。
data_root_folder = "/home/disk1/internship/zhangjy/sort_cpp/data/PETS09-S2L1"
# --- 2. 定义数据集在ClearML上的名字 ---
# 建议为项目和数据集起一个有意义的名字,方便在UI中查找。
dataset_project_name = "SORT Datasets"
dataset_name = "MOT_Benchmark_Sequences"
# --- 3. 下面的代码通常不需要修改 ---
print(f"准备创建数据集 '{dataset_name}' 到项目 '{dataset_project_name}'...")
print(f"数据源路径: {data_root_folder}")
if not os.path.isdir(data_root_folder):
print(f"错误:路径 '{data_root_folder}' 不是一个有效的文件夹,请检查。")
else:
# 创建一个数据集对象。如果同名数据集已存在,它会创建一个新版本。
dataset = Dataset.create(
dataset_project=dataset_project_name,
dataset_name=dataset_name
)
# 将指定文件夹的所有内容(包括所有子文件夹和文件)添加到数据集中。
# ClearML会自动处理压缩。
print("正在添加文件到数据集中...")
dataset.add_files(path=data_root_folder, verbose=True)
# 开始上传文件到ClearML服务器。你会看到一个进度条。
print("正在上传文件到ClearML服务器,这可能需要一些时间...")
dataset.upload(show_progress=True)
# 完成并“锁定”这个版本的数据集,使其不可修改。这是一个好习惯。
dataset.finalize()
print("\n-------------------------------------------")
print("数据集创建并上传成功!")
print(f"你现在可以在ClearML的Web界面中找到它了。")
print(f"项目名称: {dataset_project_name}")
print(f"数据集名称: {dataset_name}")
print(f"数据集ID: {dataset.id}")
print("-------------------------------------------")