-
Notifications
You must be signed in to change notification settings - Fork 59
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练流内组件拉取oss数据时kuscia节点报全局数据源不匹配 #461
Comments
是通过allinoen-secrerpad 注册的数据源,还是单独部署kuscia 。 同时辛苦将日志文件重新发送一下,详情信息中日志格式有点问题可读性较差。 |
好的,我发送的一下日志文件 |
可以参照这个文档获取一下双方节点的pod日志文件。 |
查看alice节点下的pod的详细信息,与日志文件中的报错一致: apiVersion: kuscia.secretflow/v1alpha1 |
另一方节点日志也是相同错误吗? |
这个问题解决了吗? |
问题解决了,是因为执行任务的时候未选择默认数据源。 |
但是还有一个问题,在联合圈人训练流中,在隐私求交组件执行成功后,全表统计组件执行错误,alice节点未报错,bob节点报错了,使用的数据源是oss数据源(使用节点内已经存在的alice.csv和bob.csv执行联合圈人可以执行成功),报错信息显示bob.csv列名不匹配,经过核对bob.csv输入是正确的: |
日志提示bob的列 获取一下/home/kuscia/var/stdout/pods目录下根据任务id(pad右上角j‘记录和结果’)获取一下node-4的日志 看一下。 |
把上传到oss的表下载下来重新注册到secretpad中,再次运行了联合圈人模板,报的还是列名不匹配问题(查看隐私求交的输出表,对应列是有的),以下是node-4中的部分日志: Traceback (most recent call last): |
需要提供一个完整的日志。 |
sh-5.2# cat bob_umfz-dmtjvuud-node-4-0_b3129c51-9b78-41ea-94ff-69215f2de14a/secretflow/0.logWARNING:root:Since the GPL-licensed package 2024-11-28 17:56:29,990|bob|INFO|secretflow|entry.py:start_ray:81| Succeeded to start ray head node at umfz-dmtjvuud-node-4-0-global.bob.svc. ....
|
secretpad 隐私求交 的参数配置截个图,我看一下。 |
我需要确定一下你的引擎版本
同时确认一下训练流状态,使用的模版还是自己拖拉拽组合的?可以提供一下训练流连线配置 |
部署的时候是按照kuscia和secretflow的版本对应部署的,是1.8.0b0 在容器中执行命令得到了下面的日志: |
中心化模式在master节点执行,P2P在autonomy节点执行 |
今天也重新跑了一次,选择的不是隐私求交中发送方的表中的字段,是可以执行成功的 |
因为你提供的日志中输出secretflow 版本为1.7.0b0所以我需要确定一下,我需要确定是日志输出错误还是你使用sf版本是错误的。 |
移除掉两方选项只选择,output隐私求交的数据集尝试一下,记得组件配置保存。 |
试了一下,报和以上相同的日志。 |
你这样操作一次试试。
|
部署依赖于allinone的脚本自行改造的吗?还是什么方式。 |
不是依赖于allinone的脚本部署的,kuscia通过https://github.com/secretflow/kuscia/blob/release/0.10.x/build/dockerfile/kuscia-secretflow.Dockerfile#L15本地打包后上传到环境中部署的,secretpad也是上面这种方式 |
kuscia runp 在k8s环境部署的吗? secretpad 部署命令方便提供一下吗? |
对,runp k8s部署 secretpad部署命令: ARG TARGETPLATFORM ENV TZ=Asia/Shanghai RUN mkdir -p /var/log/secretpad && mkdir -p /app/db && mkdir -p /app/config/certs && yum install -y sqlite COPY config /app/config |
那就对了,因为双方的输出结果文件名称一致,后者覆盖掉前者导致全表统计时获取不到数据。 |
感谢!为两个节点分了一下桶,执行成功了 |
Stale issue message. Please comment to remove stale tag. Otherwise this issue will be closed soon. |
Issue Type
Feature
Search for existing issues similar to yours
Yes
Kuscia Version
kuscia 0.10.0b0
Link to Relevant Documentation
No response
Question Details
The text was updated successfully, but these errors were encountered: