案例研究

Theta技术AI

海王星和Optuna并发尽快使用海王星省下故障 多日志语句 以理解模型是如何实现的
博士罗伯特图思
Theta技术AI创建者
前头
    AWS云观察省了很多时间检查无关数据
后传
    kb88凯时开户平台专用实验跟踪法提供相关洞见和可视化

Theta技术AI建立定制人工智能算法和前端用户界面 大规模保健AI系统其主要目标是在AI电源云中建医院

产品为图像和信号处理工具,检测显示健康风险异常

关于团队

团队由7名工程师组成,为保健企业搭建AI系统system代表实战世界医院部署这些系统帮助保健提供者提高临床效果和效率

团队协同一维ECG二维X光或三维磁共振成像医学和生物数据集提供各种分析服务,从数据处理预处理、模式识别和分类到模型测试验证

工作流

团队使用亚马逊网络服务GPU服务器处理培训工作量存储数据集AWS3集成AWS生态圈开发机器学习模型使用快信和PyTarkAPIsOptuna说明并优化模型超参数和Neptune

微软Azure生产工作量海王星仪表板下载保存模型的权重(自然网络,多半时间)制作后推入Azure

问题

案例研究前,TetaAI工程团队强调 : “ 开发通用医疗AI系统代表现实世界 ” 。 开发通用机器学习模型有几个阻塞-训练低质量模型就在那里(很好,同时使用低质量数据 ) 。

团队将执行数项研究,要求团队跟踪数千项大规模并行培训工作流实验自培训工作量发生在AWSGPU服务器上后,自然选择监测作业AWS云监视日志.团队开始看到一些重要约束 当他们试图分析云观察日志输出

实现云日志服务不足管理大规模实验

atar懒惰加载
引用
问题在于实验正在培训服务器上运行, 唯一能追踪到它们的方法 是通过云观察日志否则,我们将不得不写入日志文件并取回
阿比吉特拉梅什 MLTA技术AI工程师

团队发现AWS云监视日志不足以管理实验日志团队利用公共云培训常遇到挑战云型日志工具通常不是目的搭建以帮助他们有效管理实验过程

Theta技术AI团队无法完成对工作流至关重要的几件任务:

  • 获取实验相关度量WS云监视日志
  • 生产化调试问题带培训作业和实验
  • Optuna集成超参数优化
  • 通信结果ML模型对客户
  • AWS云观察日志的限制是我们正在记录许多事物不单有实验相关度量表, 服务器日志, 云观察认为的其他事有用仿佛手动过程,我遍历所有构件.-Silas Bempong, Theta技术AI数据科学家

    团队使用云观察日志监听并故障解决全栈运行AWS问题变得清晰 当他们意识到 需要更多时间和努力 人工排序和过滤实验相关度量

  • 实验之一因依赖冲突失败, 我们必须挖遍所有日志才能实现, 帮助调试从效率上讲,我们本可以做更多生产事物,而不是翻日志。”-Silas Bempong, Theta技术AI数据科学家

    团队努力有效解决模型训练问题,因为从云观察日志筛选筛选实验相关度量极具挑战性此外,他们无法实时跟踪模型培训信息并快速识别不良实验

  • 假设我们同时运行15或30项实验 Optuna样本加采样策略超参数我们采样 实验登录服务器 并启动实验

    问题在于,我们只能跟踪实验如何穿透云观察日志ibhijit Ramesh, Theta技术AIML工程师

    超参数优化对团队实验工作流并提高其效率至关重要不使用其他工具或创建脚本分析日志, 他们发现难以整理Optuna实验并理解结果,

  • CloudWatch没有视觉和图形,这对我很重要Robert Toth Theta技术AI创建者

    ThetaTechAI业务策略取决于与客户分享和通信基于机器学习实验的研究项目发现团队无法用云观察日志传递或视觉化实验结果

    需要使用第三方可视化工具,如Grafana或ElasticSearch查看实验日志,增加堆栈复杂性

求解

kb88凯时开户平台团队实验多以Optuna为基础,需要以实验跟踪为主的解决方案,可以与Optuna交互跟踪超参数并提供协作特征

atar懒惰加载
引用
进行初始概念验证研究后,团队确认需要跟踪数千项实验进行大规模并行培训
博士罗伯特图思 Theta技术AI创建者

海王星最终成为他们实现自身目标的理想选择kb88凯时开户平台除实验跟踪外,Neptu

atar懒惰加载
引用
确定海王星更有效地分组和滤波实验后,我们发现它允许与Optuna和Fast.a更好地整合它可以很容易地进行超参数扫描,这是我们所寻找的东西,因为我们想利用Optuna的力量,而不是用Weights和Biases自己的超参数搜索
博士罗伯特图思 Theta技术AI创建者

标准 Theta技术AI考虑理想解决办法kb88凯时开户平台团队概述四(4)标准,理想实验跟踪解决方案应具备:

  • 一号整合开源工具证明效果良好并由开发者社区维护
  • 2提供实时支持
  • 3易解视像化
  • 4易开发

搭建理想解决办法

atar懒惰加载
引用
多平台测试很显然海王星是我们正确选择
博士罗伯特图思 Theta技术AI创建者

菲律宾凯时国际官网开户海王星满足标准团队概述并提供下列解决方案

  • 帮助轨迹千载训练作业运行AWS大规模
  • 服务提供完全Neptune-Optuna集成
  • 特征化Optuna交互式实时仪表板
  • 提供分组过滤特征值钱组织实验
  • 搭建并整合现有栈易免提供单立基础设施

Neptune帮助 Theta技术AI跟踪千载培训作业

atar懒惰加载
引用
海王星对大规模训练活动的用户来说是一个极佳选择,因为海王星工作流已经建立处理最常用模型训练假想组织深学习实验的好工具 大多数人都有自制仪表板 或更糟的是 没有仪表板
博士罗伯特图思 Theta技术AI创建者

使用Neptune后,团队可最终跟踪并查看仅需的量子和文件发现海王星可大规模跟踪所有作业 在不同计算集群运行 当他们在AWS大规模运行数千次训练

海王星提供相关仪表板和交互用户接口监测培训作业和硬件利用情况,并分享仪表板报告供同事和相关客户使用

海王星清除云观察日志屏蔽利用Grafana等外部可视化工具并提供安全协作选项此外,它强制实验线程,使团队简单审查早期实验,故障排除并复制结果

atar懒惰加载
引用
与AWS高度融合并期望所有事情都发生在AWS内部,当大规模训练时,你希望同时实现多项训练任务,而Neptune就是从中加入的
阿比吉特拉梅什 MLTA技术AI工程师

无缝海王星-Optuna集成化使超参数优化简单

atar懒惰加载
引用
海王星和Optuna并发尽快使用海王星省下故障 多日志语句 以理解模型是如何实现的
博士罗伯特图思 Theta技术AI创建者

团队想求求解法 可不遗余力整合Optuna使用Optuna采样超参数并需要简单方式显示不同超参数组的结果

并用超参数并行培训数模型

  • 发现模型在整个培训、测试和验证中的性能
  • 了解超参数工作效果

Neptune-Optuna集成仪表板让他们深入了解超参数性能多强,并提供关于每个模型性能的所有信息

利用海王星实时仪表板覆盖Optuna网络仪表板

atar懒惰加载
引用
海王星为Optuna单用户仪表板视图提供解决方案,即Optuna集成化,从而有可能以共享协作方式交付仪表板而无需分钟实现
博士罗伯特图思 Theta技术AI创建者

团队的主要问题之一是Optuna设计成单人查看默认仪表板同时进行小实验并不足以满足需求 因为他们需要分享知识 内部开发团队和客户

Neptune-Optuna仪表板
Neptune-Optuna仪表板

可实时看到Optuna优化实验过程,多亏Neptune-Optuna集成他们可以分享仪表板与同事和客户参与项目,促进通信与合作,因为每个人都能同时看到仪表板

海王星提供TechAI实验分组和滤波特征

AG凯时手机版海王星改进团队使用计算资源培训数据处理作业举例说,对分布式集群操作大型数据处理作业是团队最计算密集任务之一AG凯时手机版内普图提供深入了解图像数据增强程序如何利用资源优化GPU使用

atar懒惰加载
引用
分组验证集对我们来说非常重要,许多其他人会从使用分组特征验证中得益
博士罗伯特图思 Theta技术AI创建者

海王星通过验证数据集合并过滤结果帮助团队高效组织实验分组特征至关重要,因为它允许他们在分机后对一些病人训练模型并测试并验证对其他人的模型

系统随机选择哪个病人会置入给定实验验证集中并按验证集分组并快速观察模型对每个检验组病人的处理方式

使用海王星过滤验证组并通知哪些验证组做得好和哪些组做得差分组实验时,将分组看成验证集并分析哪些病人研究不泛化

kb88凯时开户平台海王星AI实验跟踪仪表板
kb88凯时开户平台海王星AI实验跟踪仪表板

海王星易搭建并整合现有栈免提供单立基础设施

atar懒惰加载
引用
fastai集成后, 我们只需要一行Python代码堆栈 所有东西都推到Neptune很容易搭建API键 并自动推向海王星客户还使用海王星API搜索所有实验
博士罗伯特图思 Theta技术AI创建者

海王星提供多种集成并支持开源工具行业Theta技术AI团队发现它有帮助,因为它简单使用快信和Optuna等工具建立并运行大部分回调这些工具都已经在海王星安装,没有附加配置或代码记录并跟踪实验相关度量

团队还发现Neptune很容易搭建并启动工具类MLFLow,

atar懒惰加载
引用
并使用ML流,很难搭建即使是我的项目,我使用海王星
阿比吉特拉梅什 MLTA技术AI工程师

结果

atar懒惰加载
引用
曾有段时间结果开始下降, 并用海王星复制我们前最优结果, 而这不可能在使用海王星前实现。也是极好的审核日志 来回想我们因每一次AI研究而改变的东西
博士罗伯特图思 Theta技术AI创建者

向theta技术AI团队工具栈添加Neptune证明值,因为

  • 海王星加速团队模型开发工作流程并提高其效率,允许它们快速返回过去的实验并观察数月里超参数如何影响结果

    通过Optuna采样技术,他们可以审查以前的实验以确定哪些成功,数据版本和超参数组合产生哪些结果

    内普图纳集成Optuna很容易深入了解模型性能和Optuna超参数性能并判断损函数图表示我们运行时正确数的区块或我们需要或多或少时段Robert Toth Theta技术AI创建者

  • 团队可分享结果并审查实验,彼此间和外部利害相关方如参与研究的相关客户Neptune-Optuna集成插件改进协作过程

    前使用Optuna集成海王星Optuna内部仪表板,并因为它无法处理负载,它继续崩溃自我们开始使用海王星插件以来,这不是个问题,实验评审变得更短和无缝。”Robert Toth Theta技术AI创建者


多亏Dr.Robert toth、Abhijit Ramesh和Silas Bempong与我们合作创建案例研究

阿凡达
引用
曾有段时间结果开始下降, 并用海王星复制我们前最优结果, 而这不可能在使用海王星前实现。也是极好的审核日志 来回想我们因每一次AI研究而改变的东西
博士罗伯特图思 Theta技术AI创建者

查找实验跟踪器很容易与现有栈相融合

Baidu
map