我的机器学习起步如何Getting Started

学习技巧和原则

  • 先通过经典书籍进行科普
  • 知名机器学习网站
  • 根据书籍或网站的目录,先泛读、再选择有兴趣的部分重点精读、后至于反复读
  • 知行合一

起步Getting Started

  • 周志华版《机器学习》,又名西瓜书

可以作为科普书籍,需要主动略过对于理论推导过程,和数学公式的求真

介绍的非常全面,可作为参考书籍

书籍的前几章基本上概括了机器学习现在的框架,有助于对具体的机器学习算法或工具进行把握

  • 吴军博士《数学之美》

更侧重对于自然语言处理、语音识别、搜索等方面的人工智能上层应用,做了专向的科普和技术原理概要介绍。

文风轻松、叙事流畅,读起来相当轻松

区别于常见回归分类的基础应用,对于更上层的人工智能技术应用进行了介绍,并阐述了背后的数学原理并不复杂

更侧重于基于大数据的概率统计、马尔可夫过程、条件概率等技术手段进行人工智能应用

  • scikit-learn.org官网起步资料
    • getting_started
      知识成图

介绍了粗略结构

    • user_guide目录结构

仅关注目录结构,把握机器学习的大脉络

每个章节仅读取头部几个章节的简单的内容

数据清洗,对于这一部分目录的了解,让你几乎可以作为一名初级的数据工程师

    • 简明扼要介绍机器学习要解决的问题
      • 有监督学习:分类问题、回归问题
      • 无监督学习: 聚类、概率分布、降维等
    • Faqs

英文比较好的同学,可以深入研究其它官网例子

  • 信息论主要观点
    • 信息消除不确定性
    • 信息量、信息熵

代码例子学习网站

  • scikit-learn

相当全面的机器学习工具库,着力解决中小数据规模的机器学习问题,但大部分也够用了

基于深度学习的神经网络,确实在既适应线性问题、又适应非线性问题方面比较突出
可视化例子

  • OpenCV

对于图片或视频进行处理,可以进行一些SVMKNN的机器学习,甚至包括一些预处理。例如,常用的图片灰度化手段,其实从机器学习来看,就是专家赋能后进行降维处理,但是,对于学习任务信息量又没有丢失太多,以致于学习不到什么东西。

彩蛋

  • 回归问题和分类问题的桥梁

对数几率回归;两者的差别没有想想的那么大

  • CNN卷积神经网络

在图片特征抽取上面找到了工程上可接受的调参技术手段,关键在于最终步骤采样特征向量形成

相比较于常见较为容易处理特征向量,深度学习对于容易获取的图片数据、但难以描述其典型特征的的粗材料数据,提供了形成特征向量的方法

  • 对于关系数据库中的表记录作为特征向量的思考

关系数据库中的唯一索引对于机器学习并不友好,可以考虑提前去除

非唯一索引等非独立属性可以作为聚类分析的关注对象
其它列数据基本上可以做到相互独立,或依赖比较弱

  • 算力的忧虑

一般人很难拥有强大算力,需要注意如何自举

结束语

机器学习对于其成熟的应用领域,确实达到了工具化的程度,如果了解了,就会能够使用,并成为倍增器!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/308313.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT系列概述

OPENAI做的东西 Openai老窝在爱荷华州,微软投资的数据中心 万物皆可GPT下咱们要失业了? 但是世界不仅仅是GPT GPT其实也只是冰山一角,2022年每4天就有一个大型模型问世 GPT历史时刻 GPT-1 带回到2018年的NLP 所有下游任务都需要微调&#x…

【LeetCode】修炼之路-0001-Two Sum(两数之和)【python】【简单】

前言 计算机科学作为一门实践性极强的学科,代码能力的培养尤为重要。当前网络上有非常多优秀的前辈分享了LeetCode的最佳算法题解,这对于我们这些初学者来说提供了莫大的帮助,但对于我这种缺乏编程直觉的学习者而言,这往往难以消化吸收。(为什么别人就能想出这么优雅…

【Python】进程和多进程的使用

原文作者:我辈李想 版权声明:文章原创,转载时请务必加上原文超链接、作者信息和本声明。 文章目录 前言一、进程1.概念理解2.进程的启动3.python进程 二、多进程 前言 进程是指计算机中正在运行的程序实例。 进程可以是操作系统分配的&#…

Linux(ubuntu)下git / github/gitee使用

先附上git命令 linuxchenxiao:~$ cd Templates/ 先进入一个目录,也可mkdir新建一个目录:用于接下来初始化为git可以管理的仓库 这个目录就是所说的工作目录,指当前正在进行开发的项目的本地目录。 linuxchenxiao:~/Templates$ git init 已…

面试算法78:合并排序链表

题目 输入k个排序的链表,请将它们合并成一个排序的链表。 分析:利用最小堆选取值最小的节点 用k个指针分别指向这k个链表的头节点,每次从这k个节点中选取值最小的节点。然后将指向值最小的节点的指针向后移动一步,再比较k个指…

设计模式-Java版本

文章目录 前言设计原则单一职责原则开闭原则里氏替换原则迪米特法则接口隔离原则依赖倒置原则 设计模式构建类型工厂模式抽象工厂建造者模式原型模式单例模式 结构型适配器模式桥接模式组合模式装饰器模式代理模式外观模式享元模式 行为模式责任链模式命令模式迭代器模式中介模…

【Linux】缓冲区理解

需要云服务器等云产品来学习Linux的同学可以移步/–>腾讯云<–/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;优惠多多。&#xff08;联系我有折扣哦&#xff09; 文章目录 1. 一个奇怪的现象2. 为什么要有缓冲区3. 缓冲区的刷新策略4. 缓冲区在哪里5. 实现一…

企业私有云容器化架构

什么是虚拟化: 虚拟化&#xff08;Virtualization&#xff09;技术最早出现在 20 世纪 60 年代的 IBM 大型机系统&#xff0c;在70年代的 System 370 系列中逐渐流行起来&#xff0c;这些机器通过一种叫虚拟机监控器&#xff08;Virtual Machine Monitor&#xff0c;VMM&#x…

Mybatis插件入门

专栏精选 引入Mybatis Mybatis的快速入门 Mybatis的增删改查扩展功能说明 mapper映射的参数和结果 Mybatis复杂类型的结果映射 Mybatis基于注解的结果映射 Mybatis枚举类型处理和类型处理器 再谈动态SQL Mybatis配置入门 Mybatis行为配置之Ⅰ—缓存 Mybatis行为配置…

前端三件套html/css/js的基本认识以及示例程序

简介 本文简要讲解了html,css,js.主要是让大家简要了解网络知识 因为实际开发中很少直接写html&css,所以不必过多纠结,了解一下架构就好 希望深度学习可以参考MDN和w3school HTML 基础 HTML (Hyper Text Markup Language) 不是一门编程语言,而是一种用来告知浏览器如…

Java连接Mysql报错:javax.net.ssl.SSLException: Received fatal alert: internal_error

大致报错日志如下&#xff1a; The last packet successfully received from the server was 11 milliseconds ago. The last packet sent successfully to the server was 10 milliseconds ago.at sun.reflect.GeneratedConstructorAccessor275.newInstance(Unknown Source)…

数据结构之树 --- 二叉树

目录 定义二叉树的结构体 二叉树的遍历 递归遍历 非递归遍历 链式二叉树的实现 二叉树的功能接口 先序遍历创建二叉树 后序遍历销毁二叉树 先序遍历查找树中值为x的节点 层序遍历 上篇我们对二叉树的顺序存储堆进行了讲述&#xff0c;本文我们来看链式二叉树。 定…