sort_cpp/create_dataset.py at main · JerryFreeman215/sort_cpp · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
from clearml import Dataset
import os

# --- 1. 修改这里：指向你准备好的“父文件夹” ---
# 这个路径就是你在第1部分中创建的那个包含了所有序列的主文件夹。
data_root_folder = "/home/disk1/internship/zhangjy/sort_cpp/data/PETS09-S2L1"


# --- 2. 定义数据集在ClearML上的名字 ---
# 建议为项目和数据集起一个有意义的名字，方便在UI中查找。
dataset_project_name = "SORT Datasets"
dataset_name = "MOT_Benchmark_Sequences"


# --- 3. 下面的代码通常不需要修改 ---
print(f"准备创建数据集 '{dataset_name}' 到项目 '{dataset_project_name}'...")
print(f"数据源路径: {data_root_folder}")

if not os.path.isdir(data_root_folder):
    print(f"错误：路径 '{data_root_folder}' 不是一个有效的文件夹，请检查。")
else:
    # 创建一个数据集对象。如果同名数据集已存在，它会创建一个新版本。
    dataset = Dataset.create(
        dataset_project=dataset_project_name,
        dataset_name=dataset_name
    )

    # 将指定文件夹的所有内容（包括所有子文件夹和文件）添加到数据集中。
    # ClearML会自动处理压缩。
    print("正在添加文件到数据集中...")
    dataset.add_files(path=data_root_folder, verbose=True)

    # 开始上传文件到ClearML服务器。你会看到一个进度条。
    print("正在上传文件到ClearML服务器，这可能需要一些时间...")
    dataset.upload(show_progress=True)

    # 完成并“锁定”这个版本的数据集，使其不可修改。这是一个好习惯。
    dataset.finalize()

    print("\n-------------------------------------------")
    print("数据集创建并上传成功！")
    print(f"你现在可以在ClearML的Web界面中找到它了。")
    print(f"项目名称: {dataset_project_name}")
    print(f"数据集名称: {dataset_name}")
    print(f"数据集ID: {dataset.id}")
    print("-------------------------------------------")