忧郁的龙卷风

忧郁的龙卷风卷啊卷，职场漩涡深不见底。

人人争做加班狂徒，名利场中竞相逐利。

创新之名行旧套路，才华尽耗于内卷戏。

何时能见晴空万里，莫让心灵再蒙尘翳。

Project Structure

data/: 存储了原始知识文档

result/: 包含模型输出的问题答案，以及针对val.jsonl给出评分结果

test/ ：存储了测试用文件，其中val.jsonl包含了正确答案，test1.jsonl不包含答案

augment_generate.py : 结合向量数据库内容，向大模型提问,使用gpt-4o-mini

embed.py : 嵌入功能文件的代码

main.py : 使用服务的主代码

read_from_db.py :从向量数据库中读取数据和检索

retrieval.py :实现markdown文档的分段和嵌入，并且存储到向量数据库当中

针对markdown分段，使用langchain根据文档标题段落分段
使用text-embedding-3-large进行嵌入得到向量

score.py : 评分函数代码

utils.py : 工具函数代码

Quick Start

pip install -r requirements.txt to install all dependencies.
python retrieval.py to retrieve the text from the markdown file and store it in the vector database.
修改 main.py中的参数，数据库位置要和retrieval中的路径一致。修改测试问题文件以及最终结果输出路径。设置参数选择是否在val、test上运行，以及是否需要打分评估
python main.py to start Q&A.

在运行retrieval.py后，会生成db文件夹用于存储向量数据库，为节约项目大小，已设置不上传github

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

忧郁的龙卷风

Project Structure

Quick Start

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
data		data
result		result
test		test
.gitignore		.gitignore
README.md		README.md
augment_generate.py		augment_generate.py
embed.py		embed.py
main.py		main.py
read_from_db.py		read_from_db.py
requirements.txt		requirements.txt
retrieval.py		retrieval.py
score.py		score.py
utils.py		utils.py

Folders and files

Latest commit

History

Repository files navigation

忧郁的龙卷风

Project Structure

Quick Start

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages