ML.NET v1.6 中有趣的内容
ML.NET v1.6 发布有一段时间了,所有详细信息在此,可以了解到更多细节或实现,本文把比较新鲜有趣的内容摘要出来。
此版本中增加了很多东西,但它们确实注意到,添加的所有内容都没有中断更改。
支持 ARM
这次更新最令人兴奋的部分是对ARM架构的新支持。这将允许在 ML.NET 进行大多数场景的训练和推论项目。ARM架构几乎无处不在。如六月更新博客文章中所述,此 ARM 架构包含在移动和嵌入式设备上。这可以为手机和 IoT 设备的 ML.NET 开辟全新的世界。
DataFrame 更新
DataFrame API 可能是目前处于早期阶段的特性之一。主要还是由于 .NET 与 Python 中常见库 pandas 在数据分析上面不存在竞争,在将数据发送到 ML.NET 进行建模之前,你可能需要处理一些预处理。现在 DataFrame API 已经进入 ML.NET 主库 ,该代码以前作为实验包在 CoreFx Lab存储库中,但现在它不再是实验性的,现在已是 ML.NET 的一部分意味着项目计划持续更新。
其他 DataFrame 更新包括:
- GroupBy 扩展 - 虽然 DataFrame API 已支持 GroupBy,但此更新增加了新的属性分组,使其更像 LINQ 的 GroupBy 操作。
- 改进的CSV解析- 实现加载CSV文件时可以使用的解析。这允许在列中处理报价。TextFieldParser
- 将 IDataView 转换为 DataFrame - 我们之前已经有办法将对象 DataFrame 通过 DataFrame API 转换为能够加载在 ML.NET 中的 IDataView,现在我们可以执行相反的做法,以便对它进行进一步分析。
- 改进的日期时间转换 - 这允许更好地分析日期时间数据。
- 对排序和合并方法的改进 - 这些更新允许在执行排序或合并时更好地处理空字段。
顺便说一下,现在贡献 ML.NET 存储库,从 DataFrame API 开始参与是个好方法。他们已经有相当多的问题,你可以加以改完善,以期达到 pandas 对等的能力,让 C# 具有数据分析的生态系统。
您可以使用微软 Microsoft.Data.Analysis 标签来筛选它们,以便您可以查看现有的哪些 Issues。
代码增强
相当多的增强更新是代码质量更新。事实上,feiyun0112 有几次 pull 请求,提高了回购的代码质量,帮助人们更容易阅读和维护它。
杂项更新
还有一些并非专门主题的更新,列出来值得了解一下。
- 以 SavedModel 格式保存 Tensorflow 模型 - 允许您保存 Tensorflow 模型以使用 SavedModel 格式,而不是 freezing graph 图形。
- 指定临时路径的能力 - 您现在可以指定临时路径位置,而不是始终转到默认位置。这在 MLContext 中指定。
- 将 LightGBM 更新为 2.3.1 版本 - 使用此新版本可在使用 LightGBM 算法时提供更好的结果。
- AutoML 中的标签列名称建议 - 如果在使用 AutoML API 时可能错误地打入了标签列名称,此更新将为修复提供建议。
- 修复了几个 CI 问题 - 某些测试有时会在 CI 构建中失败,因此这些更新修复了其稳定性,以便您可以对您的拉取请求更有信心。
- 更新用于在 ARM 上进行交叉编译文档 - 添加可用的 docker image。
- 更新贡献文档与帮助标签 - 帮助指导任何希望贡献的人在哪里可以找到问题。
- 原文作者:BeanHsiang
- 原文链接:https://beanhsiang.github.io/post/2021-08-07-mlnet-1_6-interesting-content/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议. 进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。