dataset-quality

Star

Here are 15 public repositories matching this topic...

Varun-Nair / open-data-eval

Star

Systematic quality evaluation suite for AI/ML datasets. 103 ego datasets audited. ISO 5259-2 aligned.

data-evaluation croissant quality-profiles ml-datasets dataset-quality egocentric-video iso-5259

Updated Apr 21, 2026
Python

Madave94 / kalos

Star

KALOS: Evaluate the quality of computer vision datasets

computer-vision object-detection data-quality instance-segmentation keypoint-detection data-driven-ai dataset-quality

Updated Mar 31, 2026
Python

Wack520 / academic-data-hunter

Star

面向研究、竞赛与论文场景的可追溯数据采集与交付工具

python benchmarking open-data reproducibility ai-agents data-provenance academic-research mcp-server dataset-quality research-workflow

Updated Apr 19, 2026
Python

m-saeid / ModeNetR_PointSkipNet

Star

Official repository for paper "Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet"

deep-learning point-cloud modelnet data-refinement lightweight-model point-skipnet graph-based-neural-networks dataset-quality modelnet-r

Updated Mar 9, 2026
Python

naylinnaungHoodedu / welding-defect-yolo-industrial-workflow

Star

Industrial computer vision workflow for welding defect inspection using YOLO, OpenCV preprocessing, dataset QA, threshold governance, and edge-readiness analysis.

Updated May 1, 2026
Jupyter Notebook

FortOnwe / misinfo-eqa

Star

Evaluation QA harness for misinformation datasets: stress tests evidence quality, shortcuts, ambiguity, and ranking fragility.

nlp benchmarking machine-learning research evaluation fact-checking misinformation dataset-quality

Updated Apr 22, 2026
Python

Will-Fri / Model-Collapse-Detection-and-Prevention

Star

GenProof detects model collapse risk in pre-training datasets before training begins. It combines semantic entropy, tail-density, and AI detection into a composite probability score (ICS). Built with FastAPI and scikit-learn to help ensure data quality and compliance.

nlp machine-learning ai-safety data-curation synthetic-data training-data data-audit responsible-ai llm dataset-quality ai-act model-collapse

Updated Apr 27, 2026
TeX

ZeroDeaths7 / AporiaPy

Star

(WIP): 'Aporia' in Greek means 'inconsistent'. A Python library that detects and fixes dataset issues using both rule-based methods and ML models. It evaluates dataset quality across multiple metrics, including missing values, duplicates, outliers, class imbalance, and label consistency. It also suggests fixes based on the metric scores.

machine-learning python-library outlier-detection convolutional-neural-networks data-preprocessing class-imbalance label-quality class-imbalance-handling dataset-quality

Updated Mar 28, 2025
Jupyter Notebook

dhrvgpta / parking-occupancy-supervision-study

Star

How much labeled data do you actually need to deploy a parking occupancy system at a never-before-seen lot? A supervision study spanning CLIP zero-shot → ResNet-18 few-shot → full supervision on 432k parking space crops, with dataset annotation error discovery. Trained on NVIDIA A100 via IU Big Red 200.

python computer-vision deep-learning hpc pytorch supervised-learning resnet clip indiana-university few-shot-learning dataset-quality parking-occupancy pklot

Updated Apr 6, 2026
Python

sigdelsanjog / dsqus

Star

The Dataset Quality Scoring Engine (DQS) evaluates the quality of any dataset using automated, model-agnostic metrics. The system processes user-uploaded datasets, computes embeddings, analyzes statistical and semantic properties, and outputs a standardized quality score

python open-source machine-learning deep-learning pandas data-engineering dataset pip data-analytics language-model data-standards openpyxl python-package dataset-quality

Updated Apr 8, 2026
JavaScript

Adolfds / prompt-engineering-notes

Star

Practical lessons on prompt engineering for code-generation datasets used to train LLMs. Patterns and failure modes from real task audits.

code-generation prompt-engineering rlhf llm-training llm-evaluation dataset-quality

Updated Apr 24, 2026

Amankumarsingh23 / cv-dataset-inspector

Star

CV Dataset Quality Inspector — React-based tool for detecting quality issues in computer vision annotation datasets. Auto-detects bbox errors, visualizes class imbalance, and exports quality reports — built for AV/CV ML pipelines.

computer-vision annotation-tool bounding-box dataset-quality