华人澳洲中文论坛

热图推荐

    这份宝典火了,小哥学后加薪30W+

    [复制链接]

    2022-3-30 06:03:41 69 0

    原标题:这份宝典火了,小哥学后加薪30W+  
    明敏 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    数据迷信该怎么学?必备技巧有哪些?   
    比来,一份 数据迷信畛域的学习宝典在推特上火了,吸引点赞1k+。   
      
    之所以可以惹起大家的关注,是由于这份教程将数据迷信 广而杂的常识内容,梳理成为了 14个方面及各自要点,同时解答了许多学习中的常见疑难。   
    好比“用甚么言语对比好”、“哪些工具最合适”。  
    这份学习宝典的作者为 Matt Dancho,他是一个数据迷信学习网站的开创人。   
    那末,详细这份干货究竟讲了甚么?是不是真的如斯神奇?  
    咱们一同来看。  
    更保举R言语   
    进入正题以前,咱们先来浅聊一下 数据迷信(Data Science)。   
    数据迷信是指经过挖掘数据、处置数据、剖析数据,从而失掉有用信息的技术和钻研,再将这些信息运用到不同畛域的方方面面。  
      
    作者表现想要掌握这些技巧,大略每周要投入 10个小时来学习。   
    那末在开始真正学习以前,先来看一个最症结的问题——  
    用甚么言语?  
      
    在这里,作者以为选择R言语或者Python均可以。  
    假如从从业角度登程,他会斟酌下列三个要素:  
    编程言语对数据迷信的影响有多大?  待业市场的需要如何?  待业市场的竞争力如何?    第一方面,作者间接将 两者进行了比较。  
      
    Python十分合适机器学习和深度学习。然而在市场讲演方面的劣势不大,能用于统计经济学等首要畛域的库对比少。  
    R言语在业务剖析、数据迷信方面都具有完美的工具反对,在深度学习方面的运用对比弱。  
    不外作者以为,深度学习在数据迷信中的运用未几,并且在需求深度学习或者其余API时,R言语能够和Python聚拢。  
    再从 待业市场角度来看。   
    作者统计了美国招聘市场上的数据。  
    后果显示,Python方面在招职位的数量,是R言语的 2.4倍。   
    然而理解、掌握Python的人,也比掌握R言语的更多。  
    可能达到4-32倍。
        终究作者以为,选择R言语更有劣势。  
      
    那末还有一些其余根底技巧呢?  
    好比 保举使用Excel吗?  
    作者以为,虽然Excel的使用人群更广、商务人士十分喜欢,然而它在处置机器学习、大数据方面都不拥有劣势,并且单元格中的函数也容易报错。  
    所以,倡议大家郑重使用Excel。  
    而在选用甚么开发工具方面,作者展开了一项小考察。  
    针对喜爱使用R言语的人群, RStudio是大家最喜欢的开发工具。   
      
    Python方面, JupyterVSCode更受人们欢送。   
      
    在这里作者没有给出明白的保举,大家能够根据爱好选择。  
    只需4步,上手数据迷信   
    接上去,就到了正式学习的环节。  
    大抵能够分为4个步骤:  
    掌握根底技巧  学习建模  学习时间序列剖析  将模型集成到运用顺序    所需求点亮的技巧树如下所示:  
      
    看到这里,先不要头皮发麻……作者给出了一些详细的学习tips。  
    第一,从根底技巧学起。  
    可能得多人一下去就想搞定机器学习,但这可能会影响学习兴致&效力。  
      
    作者用R言语进行了示范,罗列了一些根底技巧:  
    导入数据:使用数据库,衔接到SQL,readr包, readxl包;  转换数据:处置异样值、缺失数据、重塑数据、聚合、过滤等;  可视化数据:动态/交互式数据可视化,ggplot2以及plotly;  处置文本数据、函数式编程……    假如以上这些根底技巧都掌握后,接上去就能学习 机器学习了。   
    在这里,可能有人会纳闷,不该该先学习数学、统计和算法吗?  
    对此作者以为,假如从头开始学习如何编写算法,可能并非疾速上手数据剖析。  
    所以,他更保举从 实战中学习这些技巧。   
    简略来看能够分为三步:  
    把机器学习运用在实际问题上;  尝试使用不同的算法;  比较不同的运用后果。    在这方面需求用到哪些工具呢?  
    TidymodelsH2O是作者保举的两个软件包。   
    此外, Recipes中拥有得多预处置工具,能够转换数据、创立数据特点。   
      
    接上去,作者保举你开始学习 时间序列剖析。   
    由于这个技巧象征着你能够对将来的一些数据进行预测,掌握这项技巧也会使你成为大厂手中煊赫一时的人材。  
    在这方面,你需求掌握的技巧如下:  
    时间序列剖析:处置日期/日期时间数据、聚合、转换、可视化时间序列、使用timetk  预测:ARIMA、指数平滑、Prophet、机器学习(XGBoost、随机森林、GLMnet 等)、深度学习(GluonTS)、集成、调剂超参数、扩展预测、modeltime包。      
    进行到这一步后,你就能尝试去创立一个模型并投入使用了。  
    在这里,作者保举了一个可以将模型集成到运用顺序中的工具—— Shiny。   
    这个顺序包能够用来创立交互式Web运用顺序,代码能够在当地或办事器上托管。  
    One More Thing   
    看完这份技巧树后,也有网友提出了疑难:  
    为何没有看到深度学习?
        作者回复表现:针对商业运用,机器学习会更实用。  
      
    作者表现,有位小哥在他们网站选择了疾速深造的课程后,失掉了微软机器学习工程师的offer。  
      
    固然,这份残缺的学习方案是能够白嫖的(链接请见文末)。  
    关于这篇分享,你怎么看?  
    欢送留言探讨~  
    学习清单:  
    http://www.business-science.io/r-cheatsheet  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加咱们,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    ps.加好友请务必备注您的姓名-公司-职位哦~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题38

    帖子50

    积分222

    图文推荐