Build software better, together

MarquezProject / marquez

Collect, aggregate, and visualize a data ecosystem's metadata

metadata data-discovery data-dictionary data-governance data-lineage data-ops data-provenance metadata-service marquez data-ecosystem-metadata

Updated Jun 29, 2026
Java

OpenDataBox / awesome-data-llm

Star

Official Repository of "LLM × DATA" Survey Paper

data-transformation data-acquisition data-deduplication data-filtering vlm data-selection data-synthesis data-provenance llm data-mixing

Updated Jun 15, 2026

aiidateam / aiida-core

Star

The official repository for the AiiDA code

ssh workflow database workflow-engine scheduler provenance aiida computational-science workflows data-provenance

Updated Jun 22, 2026
Python

datajoint / datajoint-python

Star

Relational Workflows: where database schemas define executable data pipelines.

mysql python postgresql declarative data-engineering scientific-computing reproducibility data-pipelines workflow-management datajoint object-storage relational-model metadata-management data-integrity data-lineage research-software data-provenance

Updated Jun 26, 2026
Python

NCEAS / metacatui

Star

MetacatUI: A client-side web interface for DataONE data repositories

metadata science doi open-data arctic ecology hacktoberfest metadata-editor data-repository eml metacat knb science-metadata arctic-data-center dataone ecoinformatics data-provenance semantic-annotations hacktoberfest2021

Updated Jun 29, 2026
JavaScript

Materials-Data-Science-and-Informatics / awesome-fair

Star

A curated list of awesome stuff around the FAIR principles for (scientific) data, i.e that data is findable, accessable, interoperable and re-usable.

metadata data-science awesome provenance fdo interoperability awesome-list fair research-data-management metadata-standard research-data metadata-management metadata-information fair-principles data-provenance digital-objects fair-digital-objects ai-ready

Updated Apr 1, 2026

Kaimary / CycleSQL

Star

ICDE 2025 Paper, Grounding Natural Language to SQL Translation with Data-Based Self-Explanations

feedback-loop natural-language-interface text-to-sql data-provenance self-explanations

Updated May 24, 2025
Python

ilum-cloud / marquez

Star

Collect, aggregate, and visualize a data ecosystem's metadata

metadata data-science data-catalog data-discovery data-dictionary data-governance data-lineage data-ops data-provenance metadata-service marquez data-ecosystem-metadata

Updated May 6, 2026
Java

TREX-CoE / aiida-qp2

Star

AiiDA plugin for Quantum Package 2.0

aiida workflows data-provenance

Updated May 29, 2024
Python

maxwellsdm1867 / wheeler

Star

Turn Claude Code into an interactive scientific workspace: workflow, file system, and knowledge graph.

Updated Jun 20, 2026
Python

livMatS / dtool-lookup-gui

Star

Graphical user interface for dtool and dserver written in Python and GTK3.

gtk3 research-data-management pyinstaller fair-data data-provenance dtool dserver

Updated Jun 24, 2026
Python

aiidateam / aiida-explorer

Star

A React component to explore AiiDA provenance

provenance aiida data-provenance

Updated Apr 17, 2026
JavaScript

msigwart / iotprovenance

Star

An experimental framework for data provenance in the IoT based on smart contracts.

iot smart-contracts blockchain provenance internet-of-things data-provenance

Updated Oct 22, 2019
JavaScript

bioAF / bioAF

Star

A self-hosted platform for orchestrating bioinformatics pipelines, managing experimental metadata, and running reproducible compute workloads.

kubernetes bioinformatics genomics reproducible-research terraform lims ngs gcp computational-biology scientific-workflows research-data-management platform-engineering data-provenance workflow-orchestration pipeline-management

Updated Jun 29, 2026
Python

vacoa / explore

Star

Scientific Workflow Management Tool

workflow performance memoization disk graph fault-tolerance reproducible-research optimization cache matlab incremental hash data-management scientific-workflows reproducibility iterative data-provenance intermediate-result

Updated Apr 13, 2020
HTML

pachyderm / pachyderm-gha

Star

Pachyderm pipeline example that automatically updates with GitHub Actions

ci pachyderm data-provenance github-actions

Updated Mar 22, 2023
Python

treqs / roar

Star

Run Observation & Artifact Registration

python rust dag lineage data-provenance content-addressable artifact-tracking

Updated Jun 25, 2026
Python

Wack520 / academic-data-hunter

Star

面向研究、竞赛与论文场景的可追溯数据采集与交付工具

python benchmarking open-data reproducibility ai-agents data-provenance academic-research mcp-server dataset-quality research-workflow

Updated Apr 19, 2026
Python

brent-mills-engineering / bioAF

Sponsor

Star

This project has moved. The latest version is tracked on Github at https://github.com/bioAF/bioAF

kubernetes bioinformatics genomics reproducible-research terraform lims ngs gcp computational-biology scientific-workflows research-data-management platform-engineering data-provenance workflow-orchestration pipeline-management

Updated May 10, 2026
Python

(ACL 2026 Main) LLMSurgeon recovers the pretraining data mixture of any LLM from only its generated text — no weights, no training data. A calibrated domain classifier plus label-shift correction de-blurs biased predictions. Ships with LLMScan, a benchmark on 8 open-source LLMs.

data-provenance label-shift membership-inference large-language-models llm-analysis pretraining-data data-mixture acl2026

Updated May 29, 2026
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-provenance

Here are 66 public repositories matching this topic...

MarquezProject / marquez

OpenDataBox / awesome-data-llm

aiidateam / aiida-core

datajoint / datajoint-python

NCEAS / metacatui

Materials-Data-Science-and-Informatics / awesome-fair

Kaimary / CycleSQL

ilum-cloud / marquez

TREX-CoE / aiida-qp2

maxwellsdm1867 / wheeler

livMatS / dtool-lookup-gui

aiidateam / aiida-explorer

msigwart / iotprovenance

bioAF / bioAF

vacoa / explore

pachyderm / pachyderm-gha

treqs / roar

Wack520 / academic-data-hunter

brent-mills-engineering / bioAF

Yaxin9Luo / LLMSurgeon

Improve this page

Add this topic to your repo