Releases: tencentmusic/cube-studio
v2024.03.01
1、更新torch server、tfserving、triton server推理服务镜像版本
2、k8s dashboard web界面去除不可控区域,避免安全问题
3、升级任务模板
4、增加智能聊天功能
5、增加任务优先级
6、增加计量计费
7、增加算力额度控制
8、支持添加端口黑名单
9、修正数据集备份功能
10、添加notebook镜像保存
11、yolov3更新为yolov7,推理web使用gradio
12、其他的文档修正和代码bug修正
v2023.12.01
完善文档
完善初始化示例
完善测试脚本
更换新版本整体资源界面
支持暂停和恢复任务流
任务流支持任务推荐
分布式训练支持gpu和rdma,拉取秘钥等信息传递
全面修改国内网络源的使用
新增ib卡的监控
修复gpu显存占用率和gpu利用率bug
标准化ml server配置格式和接口格式
支持统一镜像服务下多仓库秘钥配置
新增各类型特征处理模板
新增时间序列算法模板
aihub修改统一前缀/aihub/$name/和/aihub/$name/api
前后端支持国际化
支持数据集一键探索功能
删除冗余前端代码
支持ipvs 的k8s网络模型
支持分布式训练时单机调试分布式worker镜像
支持ssh隧道联动notebook sshd
添加内网离线环境部署打包的修正方法
全面升级python基础包
支持centos8和ubuntu22.04部署
支持sqllab,菜单,可配置化
添加datax,sqllab,维表对接postgres的示例
增加数据库结构说明
增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等
支持gpt4对话
整体资源页面,支持管理员批量删除
增加修改和删除,清理等操作的历史记录
修正智能聊天在特殊返回值下内容显示不全的问题
修正后端错别字,中英文和非必要的冗余代码
添加任务流导入模板
删除任务时,删除相同run-id的service
修正任务超时的配置
去除frameworkcontroller组件,nni组件不再依赖
添加跳过功能
workflow pod人性化展示以及中文显示
修正整体资源界面,vgpu调度显示
v2023.08.01
1、全面替换基础组件的版本,基础组件基本支持arm64算力系统
2、修改初始化配置,兼容更多k8s部署工具。
3、替换基础部署k8s版本为1.21
4、升级优化各类型job模板
5、添加nfs的基础部署,添加harbor的基础部署,去除kube-batch
6、修正部分错别字和代码风格优化
v2023.04.01
基础架构
- 支持到1.18~1.25 k8s版本
- 支持最小化部署
- 增加alluxio+minio分布式缓存
- 增加efki日志系统
- 增加harbor私有仓库部署
- 去除kubeflow-pipeline依赖,添加argo独立部署
- 添加gpu机器配置和内网域名解析配置
平台:
- 基础环境更新为python3.9
- celery更新为5.1.2版本
- 添加数据集导入模板,模型导入模板,模型注册模板
- 增加sqllab功能
- 推理服务单台滚动发布
- 添加资源汇总页面
- 支持用户密码修改
- 增加可选notebook基础镜像
- 添加认证信息多平台授权
- 添加数据集版本,权限管理,上传下载
其他:
- 支持任务结果可视化
- 支持数据集预览,模型指标预览
- 支持血缘链路,字段、表、任务、看板关联
- 支持sdk数据集上传下载,大数据量媒体文件数据处理。
- 支持sdk 发起训练部署和推理
- 支持gpu虚拟化
- 支持分布式任务模板
- 支持传统机器学习算法模板
- 支持推广搜算法模板
- 支持模型压缩,格式转换模板
- 支持大模型模板
- 支持400+aihub模型应用
- 支持aihub转notebook开发,pipeline微调,web手机端和pc端推理体验
- 支持国产芯片部署
- 支持边缘集群模式
- 支持标注平台与特征平台,以及特征处理sdk
- 支持大模型微调,私有知识库,人机对话数字人
v2022.09
1、部署:
简化istio部署模式/prometheus部署、修正istio gateway部署端口重复问题,
合并部署tfjob/pytorchjob/mpijob/mxnetjob,
减少部署镜像,
支持k8s 1.20,1.21,1.22等版本
2、平台:
优化前端ui风格,修正前端构建方法
支持前后端独立部署方式,
新增离线表/指标/维表/数据集/数据etl/模型管理功能,
修改水印和pipeline跳转链接,
禁用jupyter的xsrf和网关请求大小限制,
支持非80端口的网关入口,
支持k8s共享内存的自动挂载。
补充coredns的配置,支持内网特殊dns解析
添加全局用户pod的监控,添加用户任务资源占用监控,修正部分监控页面打开bug,
添加推理服务sidecar功能,支持ip端口形式的流量监控。
添加服务的帮助链接,
添加bug report链接,
支持多集群下,不同泛域名,
支持右侧菜单自定义配置,
添加支持bigdata machinelearning deeplearning版本jupyter,支持ssh直连notebook,支持notebook中hadoop,spark,flink数据分析
添加支持服务部署中内外双网卡和单域名模式,
添加支持密码修改,支持跨域共享cookie认证,和ifram嵌入跨域问题,
增加任务跳过功能,增加项目组切换后,挂载自动补充
添加数据集/模型/推理/内部服务/模板/pipeline示例,
添加chatbot/cartoonize/openpose/face/yolo/wenet等内部服务示例,
添加triton/tfserving/torchserver镜像构建和推理demo
添加mpi/spark-serverless/horovod/paddle/mxnet/tfjob-k8s/分布式训练,
添加hadoop模板,支持spark任务提交
添加ner中文实体识别模板,修正模板的使用说明和参数说明,
github补充wiki和英文版说明,
代码规范升级,修正数个isues bug
3、aihub:
平台添加aihub 应用市场查看,
开源aihub python sdk,
深度学习,添加算法模型animegan,ddddocr,deoldify,detectron2,face-paint,gfpgan,humanseg,paddleocr,panoptic,stable-diffusion,yolov3
传统机器学习,添加算法示例AdaBoost,Bayesian,CRF,CatBoost,FM,HMM,LDA,MCMC,MEM,PCA,SVD,SVM,decision_tree,gbdt,kmean,knn,lightGBM,linear_regression,logistic_regression,neural_networks,random_forest,xgboost,关联分析,最小生成树,极大似然估计,聚类,集成学习
v2022.08
1、部署:修正istio/prometheus部署、独立部署istio/tfjob/pytorchjob/mpijob/mxnetjob,简化部署镜像
2、平台:优化前端ui,添加前后端分类部署方式,新增hive离线表/指标/维表/数据集/数据etl/模型管理功能,修改水印和pipeline跳转链接,禁用jupyter的xsrf和网关请求大小限制,支持非80端口的网关入口,更新k8s共享内存的自动挂载。补充coredns的配置,添加全局用户pod的监控,添加推理服务sidecar功能,支持端口形式的请求监控。添加服务的帮助链接,前端添加retry_info能力。
3、模板:添加mpi/spark-serverless/horovod/paddle/mxnet/tfjob-k8s/分布式训练,hadoop模板,ner中文实体识别模板,修正模板的使用说明和参数说明
4、example:添加数据集/模型/推理/内部服务/模板/pipeline示例,添加chatbot/cartoonize/openpose/face/yolo/wenet等内部服务示例,添加triton/tfserving/torchserver镜像构建和推理demo
5、github补充wiki和英文版说明
v2022.07
1、部署:修改仓库地址、修正istio prometheus部署、独立部署istio、独立部署tfjob/pytorchjob/mpijob/mxnetjob、添加prometheus持久化
2、镜像:添加新gpu构建镜像、添加推理服务的构建镜像
3、功能:添加pipeline/service/job-template初始化方法,pipeline自动排版,添加支持拉取策略为IfNotPresent、修复边缘模式下jupyter打不开的问题
4、模板:添加mpi-operator/spark-operator、添加horovod分布式、spark-serverless分布式、tfjob-k8s、替换stern为in cluster模式、
5、demo:添加chatbot/cartoonize/openpose/face/yolo/wenet等推理服务示例、添加人脸识别web镜像、模板demo示例
v2022.06版本
AIhub新增模板:
数据/算法模板:
datax(单机异构数据同步)/xgb(单机训练)/deploy-service(单机部署推理服务)/ray(分布式数据处理)/ray-sklearn(分布式传统机器学习)/volcano(分布式计算)/pytorchjob-train(分布式训练)/media-download(分布式文件下载)/video-audio(分布式提取音频)/video-img(分布式视频抽帧)/model-offline-predict(分布式模型离线推理)/tfjob-train(分布式训练)/tfjob-runner(分布式训练)/tfjob-plain(分布式训练)/tf-distribute-model-evaluation(分布式评估)/tf-model-offline-predict(分布式离线推理)/kaldi-distributed-on-volcanojob(分布式训练)
全自动建模pipeline:
darknet目标识别
推理服务:
yolo目标识别
功能优化:可视化优化,边缘能力支持,dag自动编排,单机部署优化,实时训练
边缘集群部署调度以及边缘全自动建模流程:https://www.bilibili.com/video/BV1qY4y1x7Yy/
欢迎图像、文本、语音、视频、推广搜、量化、风控等各行业算法同学,参与共建AIhub(数据/算法模板,全自动建模pipeline,推理服务)市场。
v2022.05.01
添加单机部署脚本视频,将模板仓库合并到当前仓库,并添加分布式ray/volcano/tf/pytorch分布式能力
v2021.11.01
修正了gpu基础镜像的构建,添加了部分说明文档