HiThink Research

BizFinBench Public

A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

Python 218 8

MME-Finance Public

[MM 2025] A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

Python 43 4

GAGE Public

General AI evaluation and Gauge Engine. A unified evaluation engine for LLMs, MLLMs, audio, and diffusion models.

Python 29 5

BizFinBench.v2 Public

BizFinBench.v2: A Unified Offline–Online Bilingual Benchmark for Expert-Level Financial Capability Evaluation of LLMs

Python 24 1

FinMTM Public

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Python 15

PuzzleClone Public

PuzzleClone: An SMT-Powered Framework for Synthesizing Verified Mathematical Reasoning Data

Python 5

Provide feedback