华人澳洲中文论坛

热图推荐

    如何从政府网站疾速获得数据

    [复制链接]

    2021-5-18 01:28:17 721 18

    求教大家,我公司需求从department of human services网站获得客户数据。然而DHSS网站是每次查问必需有用户信息,好比一个unique ID,加之last name and DOB。并且不提供API。求教大家如何疾速获得少量客户的数据,有无其余的计划?

    斟酌了RPA,有点太费时麻烦。想知道还有其余好的方法吗。

    全部回复18

    maxwoo 发表于 2021-5-18 00:34:08

    maxwoo 沙发

    2021-5-18 00:34:08

    这个行动合法么……
    chendq 发表于 2021-5-18 00:35:19

    chendq 板凳

    2021-5-18 00:35:19

    合法的。只是在技术上,我不知道还有甚么其余计划。任何一个healthcare provider都是这样。只是咱们量对比大,所以在想其余方法
    tongxing 发表于 2021-5-18 00:42:49

    tongxing 地板

    2021-5-18 00:42:49

    写个爬虫吧
    wall9683 发表于 2021-5-18 00:44:11

    wall9683 5#

    2021-5-18 00:44:11


    感激回复。政府DHSS数据客户常常更新的,固然也不存在购买一说,只是获得起来很麻烦。就想知道技术上可不成以摹拟阅读器而后filter value,而后调取这些办事喝数据
    dgbfly2002 发表于 2021-5-18 00:47:04

    dgbfly2002 6#

    2021-5-18 00:47:04


    求教怎么写?
    玄衣秀士 发表于 2021-5-18 00:51:11

    玄衣秀士 7#

    2021-5-18 00:51:11


    你用爬虫试试看,马上封你的ip。假如不存在购买一说,那你彻底能够间接问政府收费讨取。哪无数据是不要钱的?
    zxwang 发表于 2021-5-18 00:52:26

    zxwang 8#

    2021-5-18 00:52:26


    Google一下吧

    爬虫假如被封的话,还能够写个顺序自动隔一段时间获得。办法好多,Postman,UI自动化测试, etc。。。
    亿云 发表于 2021-5-18 00:56:54

    亿云 9#

    2021-5-18 00:56:54



    阅读器能做的事,就能automate, 公司爬虫名目天天20w个job

    不外当初zf开始转型,提供商用API了,缓缓都往上转了;就是开发很慢,一个endpoint 要写个半年, 缓缓等吧


    阅读器自动化,老牌的是selenium,反对多种言语和阅读器;或者Google出品的Puppeteer,nodeJS平台,只反对Chrome
    wchsss 发表于 2021-5-18 01:01:06

    wchsss 10#

    2021-5-18 01:01:06

    专家。
    lingerie 发表于 2021-5-18 01:04:29

    lingerie 11#

    2021-5-18 01:04:29

    学习了
    shy2002 发表于 2021-5-18 01:07:01

    shy2002 12#

    2021-5-18 01:07:01

    谨慎被当成特务啊
    仓颉 发表于 2021-5-18 01:11:09

    仓颉 13#

    2021-5-18 01:11:09

    谢谢大家。彻底合法,由于网站没有API,所以要一个一个查对比慢。
    KEKE1983 发表于 2021-5-18 01:15:38

    KEKE1983 14#

    2021-5-18 01:15:38

    逐一查合法,然而爬虫就不法了,除非你很肯定的失掉对方的confirmation
    wms9999 发表于 2021-5-18 01:17:36

    wms9999 15#

    2021-5-18 01:17:36

    搜一下Department of human service api第一个后果不是吗?
    larry 发表于 2021-5-18 01:18:36

    larry 16#

    2021-5-18 01:18:36

    爬虫为何分歧法? Google怎么做的, 最大的爬虫就是他们家。
    vajrahara 发表于 2021-5-18 01:20:58

    vajrahara 17#

    2021-5-18 01:20:58


    爬虫,哪一个好用用哪一个

    又不必斟酌多阅读器兼容问题

    没有任何理由不必Puppeteer吧
    sunwww 发表于 2021-5-18 01:24:20

    sunwww 18#

    2021-5-18 01:24:20


    能够在robot外面定义许可,阻止规定
    aking 发表于 2021-5-18 01:28:17

    aking 19#

    2021-5-18 01:28:17

    爬虫这货色,你用是能够用,然而并无SLA一说

    简略来讲,假如政府阿谁网站更新了,而后你们爬虫就坏了,获得不了数据了,由此而得可能会形成微小的商业损失。

    假如你们全部Solution建设在爬虫获取的数据上,那危险是微小的。这个你们Business知道么?

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    论坛元老
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题304

    帖子4725

    积分10588

    图文推荐