华人澳洲中文论坛

热图推荐

    求保举数据抓取的framework

    [复制链接]

    2021-5-18 00:46:30 168 9

    想要找一个成熟一点的数据抓取framework, python 或者ruby 最佳。

    全部回复9

    丫头片子 发表于 2021-5-18 00:18:42

    丫头片子 沙发

    2021-5-18 00:18:42

    你指的是screen scraping?
    dm511116 发表于 2021-5-18 00:23:16

    dm511116 板凳

    2021-5-18 00:23:16

    http://scrapy.org/
    yjq 发表于 2021-5-18 00:27:43

    yjq 地板

    2021-5-18 00:27:43

    Selenium IDE  firefox下的相似于脚本的工具,也有各种言语的接口:
    http://addons.mozilla.org/en-us ... xpert-selenium-ide/
    亿云 发表于 2021-5-18 00:31:44

    亿云 5#

    2021-5-18 00:31:44


    差未几,不外是api档次的数据抓取
    口红 发表于 2021-5-18 00:34:36

    口红 6#

    2021-5-18 00:34:36


    这个是python的吧,不知道对js反对怎样? 咱们也有相似需要,当初用casperJS

    i58liu 发表于 2021-5-18 00:39:16

    i58liu 7#

    2021-5-18 00:39:16


    scrapy着重于高并发下的HTML抓取,其实不真正渲染页面。

    相似casperJS,phantomJS这类需求把HTML和Javascript丢到webkit引擎里渲染,效力不会过高,更多用于测试用处。
    赛伊 发表于 2021-5-18 00:41:02

    赛伊 8#

    2021-5-18 00:41:02


    不要去渲染页面,只是用于数据聚合和再利用。
    niubala 发表于 2021-5-18 00:44:53

    niubala 9#

    2021-5-18 00:44:53


    咱们的页面,要点击/输出好几个step能力达到,同时可能要等候ajax request前往静态页面,所以咱们才选用casperJS, 用js promises 的sucess/failure 后果 进行下一个step的操作 ;

    这个scrapy 看主页似乎 间接调取html,不知道对静态页面反对如何?
    znli1979 发表于 2021-5-18 00:46:30

    znli1979 10#

    2021-5-18 00:46:30

    间接用WinHttp.WinHttpRequest.5.1吧,灵敏点,就是要本人manipulate raw data罢了

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    论坛元老
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题321

    帖子4450

    积分10043

    图文推荐