机器学习项目精选 第一期:超完整数据科学资料合集

大噶吼,不说废话,分享一波我最近看过并觉得非常硬核的资源,包括Python、机器学习、深度学习、大模型等等。

1、超完整数据科学资料合集

地址:https://github.com/krishnaik06/The-Grand-Complete-Data-Science-Materials

  • Python 数据分析和数据科学完整播放列表
  • 数据分析和数据科学的完整统计学播放列表
  • 数据分析和数据科学的完整 SQL
  • Git 和 Github 教程
  • 探索性数据分析、特征工程和特征选择
  • 机器学习播放列表
  • 深度学习和自然语言处理完整播放列表
  • 生产部署的重要框架
  • 完整的 AWS Sagemaker 和 Sagemaker Studio 工具
  • 完整的 MLOPS 教程
  • 使用开源工具的端到端机器学习、深度学习和自然语言处理项目,直到部署
  • 生成式 AI 和 Open AI 播放列表
  • PySpark 完整教程
  • 完整的数据科学、机器学习和深度学习面试题

2、机器学习算法实现的最小和最干净的例子

地址:https://github.com/rushter/MLAlgorithms

这个项目有点老,但是知识不老。主要面向希望学习机器学习算法内部原理,或者从零开始自己实现机器学习算法的人群。相比于高效优化的现成机器学习库,这个项目中的代码更容易理解和操作。所有的算法都是用 Python 实现的,利用了 numpy、scipy 和 autograd 这些库。

已经实现的算法包括:

  • 深度学习(多层感知器、卷积神经网络、递归神经网络、长短期记忆网络)
  • 线性回归、逻辑回归
  • 随机森林
  • 支持向量机(线性核、多项式核、RBF 核)
  • K均值聚类
  • 高斯混合模型
  • K近邻
  • 朴素贝叶斯
  • 主成分分析(PCA)
  • 因子分解机
  • 受限玻尔兹曼机(RBM)
  • t分布随机嵌入(t-SNE)
  • 梯度提升决策树(也称为 GBDT、GBRT、GBM、XGBoost)
  • 强化学习(深度 Q 学习)

3、机器学习面试

地址:https://github.com/khangich/machine-learning-interview

包含了机器学习工程师面试常见问题的分享,包括来自 Facebook、Amazon、Google 等大公司的面试经历。作者 Pham An Khang 通过收集整理不同公司的面试题,并分享自己以及朋友的面试准备经验,帮助读者为机器学习岗位面试做准备。

4、深度学习论文精读

地址:https://github.com/mli/paper-reading?tab=readme-ov-file

5、微软开源的promptbase

地址:https://github.com/microsoft/promptbase

promptbase 微软开源的一系列资源、最佳实践和示例脚本,用于从 GPT-4 等基础模型中激发出最佳性能。号称:All things prompt engineering(关于提示工程的一切)

6、苹果最新开源的机器学习框架

地址:https://github.com/ml-explore/mlx

熟悉的 API:MLX 具有一个紧随 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,与 Python API 密切相关。MLX 具有更高级的包,如 mlx.nn 和 mlx.optimizers,其 API 紧随 PyTorch,以简化构建更复杂的模型。

苹果同时还公布了mlx应用示例:https://github.com/ml-explore/mlx-examples

示例包括:

  • Transformer 语言模型训练
  • 使用 LLaMA 或 Mistral进行大规模文本生成
  • 混合专家(MoE)语言模型与 Mixtral 8x7B
  • 使用 LoRA进行参数高效微调。
  • 使用 Stable Diffusion 生成图像。
  • 使用 OpenAI 的 Whisper进行语音识别。
  • 使用 BERT进行双向语言理解
  • 在图结构数据上使用 GCN进行半监督学习

7、Mistralai client-python

地址:https://github.com/mistralai/client-python

Mistral AI 发布的,最近风头最盛的大模型`Mixtral 8x7B,这个库是Mistral AI官方开源的Python客户端,可以直接调用Mistral AI API

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/282948.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

女生想通过培训转行软件测试类可行吗?

首先,女生转行IT行业做软件测试是可以的,因为软件测试岗,尤其是其中的功能性测试岗,入行门槛并不高,有很多女生在做,且我个人认为还蛮适合女生的,因为女生相对来说更细心,文档能力也…

Linux:时间显示(函数介绍)

文章目录 1、sleep:延迟函数2、time/localtime3、示例:sleep time localtime4、Linux时间调整 1、sleep:延迟函数 函数原型:unsigned int sleep(unsigned int seconds); 功 能:延时 参 数:seconds:秒&am…

高频面试:Spring 如何解决循环依赖?(荣耀典藏版)

目录 一、 基础知识 1.1 什么是循环依赖 ? 1.2 三级缓存 1.3 原理执行流程 二、 源码解读 2.1 代码入口 2.2 第一层 2.3 第二层 2.4 第三层 2.5 返回第二层 2.6 返回第一层 三、 原理深度解读 3.1 什么要有 3 级缓存 ? 3.2 能干掉第 2 级缓…

C#结合JavaScript实现多文件上传

目录 需求 引入 关键代码 操作界面 ​JavaScript包程序 服务端 ashx 程序 服务端上传后处理程序 小结 需求 在许多应用场景里,多文件上传是一项比较实用的功能。实际应用中,多文件上传可以考虑如下需求: 1、对上传文件的类型、大小…

Chrome浏览器中访问http会自动跳转https下,导致请求和文件不能正常访问

网上查了很多解决方案,例如清楚缓存等等其他方法,都不能解决该问题 例如: 地址栏输入: chrome://net-internals/#hsts找到底部Delete domain security policies一栏,输入想处理的域名,点击delete。 搞定了…

Git 硬重置之后恢复历史提交版本

****硬重置之前一定要备份分支呀,谨慎使用硬重置,特别是很多人一起使用的分支**** 如果你在reset的时候选择了Hard选项,也就是硬重置 重置完且push过,那么被你本地和远端后面的提交记录肯定就会被抹去。 解决办法: …

Power BI - 5分钟学习增加索引列

每天5分钟,今天介绍Power BI增加索引列。 什么是增加索引列? 增加索引列就是向表中添加一个具有显式位置值的新列,一般从0或者从1开始。 举例: 首先,导入一张【Sales】样例表(Excel数据源导入请参考每天5分钟第一天)…

深入解析HashMap数据结构及其应用

目录 引言 1. HashMap简介 2. 哈希表的基本原理 3. HashMap的内部结构 4. 哈希冲突的处理 5. HashMap的常见操作 6. HashMap的性能优化 7. 实际应用场景 结论 引言 在计算机科学中,数据结构是构建和组织数据的一种方式,而HashMap是其中一种常用…

JavaScript数组分组groupBy

JavaScript 最近发布了一个方法 Object.groupBy,可以对可迭代对象中的元素进行分组。 语法: Object.groupBy(items, callbackFn)items 被分组的可迭代对象,如 Array。 callbackFn 对可迭代对象中的每个元素执行的函数。 举个例子&#…

缓存穿透的原因和解决方案

缓存穿透 缓存穿透产生的原因 用户请求的数据在缓存中和数据库中都不存在,不断发起请求,给数据库带来压力 缓存穿透的解决方案 1:缓存空对象 优点:实现简单,维护方便 缺点: 额外的内存消耗可能造成短…

电路中的屏蔽罩作用及设计

1.1 屏蔽罩作用 1.1.1 屏蔽电子信号,防止外界的干扰或内部向外的辐射: 一般见于通信类电路PCB,主要一个无线通信产品上有的敏感器件、模拟、数字电路、DCDC电源电路,都需屏蔽隔离,是为了不影响其它电路,也有防止其它电…

【算法】二分法

1、二分法 1.1 二分法原理 每次将查找的范围缩小一半,直到最后找到记录或者找不到记录返回。 要求:采用二分法查找时,数据需是排好序的。 1.2二分法思路 判断某个数是否在数组中存在(例:判断3是否在数组中存在&#…