Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

代码的知识库怎么构建,直接把相应代码放入文档上传就可以吗 #1479

Closed
1 of 7 tasks
fanfanyaya opened this issue May 14, 2024 · 9 comments
Closed
1 of 7 tasks
Labels
bug Something isn't working

Comments

@fanfanyaya
Copy link

例行检查

  • 我已确认目前没有类似 issue
  • 我已完整查看过项目 README,以及项目文档
  • 我使用了自己的 key,并确认我的 key 是可正常使用的
  • 我理解并愿意跟进此 issue,协助测试和提供反馈
  • 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭

你的版本

  • 公有云版本
  • 私有部署版本, 具体版本号:

问题描述, 日志截图

复现步骤

预期结果

相关截图

@fanfanyaya fanfanyaya added the bug Something isn't working label May 14, 2024
@wxy545812093
Copy link

理论上确实可以这样子的。但代码片段对格式有强要求的吧? 所以似乎不适合 “分段拆分” 和 “模型拆分“ ,保险起见建议还是手动添加吧。我的目前理解就是这样子,因为我还没有部署成功~ :) :)

@lijiajun1997
Copy link

不建议通过知识库的形式,感觉预训练的代码已经覆盖面很广了,RAG代码只会限制AI的发挥。如果有必要,建议提示词+上下文。

@lijiajun1997
Copy link

如果一定要上传代码,建议用csv导入。
第一列描述代码实现的功能,第二列放代码。

@fanfanyaya
Copy link
Author

不通过建议知识库的形式,感觉预训练的代码已经覆盖面很广了,RAG代码只能限制AI的发挥。如果有必要,建议提示词+上下文。

我们用的大模型代码生成太差了,答非所问,感觉按您这样分两列太麻烦了,我现在就是从网上爬了点代码块

@fanfanyaya
Copy link
Author

理论上确实可以这样子的。但是代码片段对格式有强要求的吧?好像不适合“分割分割”和“模型分割”,保险起见建议还是手动添加吧。我的目前理解就是这样子,因为我还没配置成功~ :) :)

谢谢,我是刚接触大模型,以前就搞过点cv

@fanfanyaya
Copy link
Author

如果一定要上传代码,建议用csv导入。 第一列描述代码实现的功能,列放代码。

那这知识库的作用是不是对大模型本身的生成效果提升不大,作用是查询资料的感觉

@lijiajun1997
Copy link

不通过建议知识库的形式,感觉预训练的代码已经覆盖面很广了,RAG代码只能限制AI的发挥。如果有必要,建议提示词+上下文。

我们用的大模型代码生成太差了,答非所问,感觉按您这样分两列太麻烦了,我现在就是从网上爬了点代码块

换个大模型,deepseek coder试试,以及提示词优化一下。一般你能找到的代码都已经被大模型训练过了。

@fanfanyaya
Copy link
Author

不通过建议知识库的形式,感觉预训练的代码已经覆盖面很广了,RAG代码只能限制AI的发挥。如果有必要,建议提示词+上下文。

我们用的大模型代码生成太差了,答非所问,感觉按你这样分两列太麻烦了,我现在就是从网上爬了点代码块

换个大模型,deepseek coder 尝试,以及提示词优化一下。一般你能找到的代码都已经被大模型训练过了。

换不了,要用公司的大模型加知识库构建应用体,唉

@c121914yu
Copy link
Collaborator

c121914yu commented May 15, 2024

可以考虑手动标注。
index 是代码描述,content 是代码。
直接导入比较难

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

4 participants