华人澳洲中文论坛

热图推荐

    用啥言语能对比便利的写个小顺序和网页交互提取数据?

    [复制链接]

    2021-5-18 01:06:12 640 22

    当初俺在大学里有个钻研名目得用数据,从美国证监会(SEC)的网站上查问他们的数据库,下载数据。他们网站页面能够输出一些筛选前提,而后出来的数据(其实就是公司提交的得多报表)能够从网页上以txt或者html格局下载。由于数据量很大,用手动的话岂不是累死了。

    当初有哪些对比便利的言语合适或者可以编写小顺序自动得去和网页交互下载报表。或者说这样的自动化要求是不是理想,大略能做到各啥水平。

    俺要求不高,也不要很牛的功用。这纯正是学术的,不波及任何商业。我能够本人写顺序,这钻研名目也没资金资助。

    全部回复22

    jiezhi 发表于 2021-5-18 00:00:55

    jiezhi 沙发

    2021-5-18 00:00:55

    我是C#顺序员,这类顺序,我都用C#完成。
    按理说甚么言语均可以的。
    bjgame 发表于 2021-5-18 00:05:53

    bjgame 板凳

    2021-5-18 00:05:53

    selenium?能够录制脚本操作阅读器。
    boa_j 发表于 2021-5-18 00:10:15

    boa_j 地板

    2021-5-18 00:10:15

    这类网站确定有RSS feeder的,XML format。
    9189188 发表于 2021-5-18 00:11:24

    9189188 5#

    2021-5-18 00:11:24

    http://www.sec.gov/spotlight/xbrl/filings-and-feeds.shtml
    play330959 发表于 2021-5-18 00:14:31

    play330959 6#

    2021-5-18 00:14:31

    个别和text打交道都用scriping language

    当初盛行python,内置api也十分多
    fskhfx 发表于 2021-5-18 00:22:19

    fskhfx 7#

    2021-5-18 00:22:19

    perl lwp
    每天干这事
    woodbine 发表于 2021-5-18 00:27:05

    woodbine 8#

    2021-5-18 00:27:05

    均可以,看你哪一个言语拿手啊
    gxzh 发表于 2021-5-18 00:28:06

    gxzh 9#

    2021-5-18 00:28:06


    我中文拿手,
    zxuestc 发表于 2021-5-18 00:32:45

    zxuestc 10#

    2021-5-18 00:32:45


    哦 那就用 易言语

    易言语汉语编程民间站
    anyany 发表于 2021-5-18 00:34:08

    anyany 11#

    2021-5-18 00:34:08

    “能够从网页上以txt或者html格局下载“

    究竟是下载仍是要抓数据?

    假如是下载就会有本人的url,假如要抓数据就需求web page的parsing/extraction, 不外均可以用powershell, 它底层大可能是是调用.net的类库。跟c#的implementation比,优点是scripting,间接改code,也不必recompile。 缺陷是必需对powershell的语法对比熟,debug起来假如没用好的工具就没有vs那末随手。

    此外用selenium应该不错。
    426 发表于 2021-5-18 00:36:47

    426 12#

    2021-5-18 00:36:47


    比来才看到这个易言语,有出路么?貌似天朝不少初高中的骚年们趋之若鹜~~
    zorooo 发表于 2021-5-18 00:40:23

    zorooo 13#

    2021-5-18 00:40:23


    老大你的阿谁平台写得咋样啦?良久没看你下去了,很忙啊?
    冰雪紫旋 发表于 2021-5-18 00:45:20

    冰雪紫旋 14#

    2021-5-18 00:45:20

    我用vb做过,自动填入该填的筛选控件的值,再触发下载控件的点击事情,就能摹拟人手输出下载了。
    这样很便利,由于不需求对网页的内容做多少剖析,只有知道控件称号就行了。尤为假如你先需求login的话,觉得这样最简略,由于你基本不必关怀提交给网站的详细内容。
    100d 发表于 2021-5-18 00:47:17

    100d 15#

    2021-5-18 00:47:17


    ha,这边不是常常来逛,任务版那边倒是常常去  

    写的差未几了,过两个礼拜就要给business做demo, pressure  

    你怎样?所有还好吧?
    sunshinerock 发表于 2021-5-18 00:48:48

    sunshinerock 16#

    2021-5-18 00:48:48

    谢谢给我,我按你们说得钻研一下。
    当初都有用中文编成的了?
    wchsss 发表于 2021-5-18 00:52:59

    wchsss 17#

    2021-5-18 00:52:59

    不需求弱小的编程言语,脚本划拉划拉就够了
    wchsss 发表于 2021-5-18 00:55:08

    wchsss 18#

    2021-5-18 00:55:08

    我会选python,由于最相熟这个。

    其余脚本言语都行。
    ronin 发表于 2021-5-18 00:56:39

    ronin 19#

    2021-5-18 00:56:39

    python 上手容易例子多
    huntun 发表于 2021-5-18 00:58:55

    huntun 20#

    2021-5-18 00:58:55

    静态言语根本都很便利,甚么python,ruby,groovy。。。。等很容易
    乾宿雨 发表于 2021-5-18 01:01:48

    乾宿雨 21#

    2021-5-18 01:01:48

    selenium +1
    poluo 发表于 2021-5-18 01:03:56

    poluo 22#

    2021-5-18 01:03:56


    公司曾经破产了,你说有无出路
    play330959 发表于 2021-5-18 01:06:12

    play330959 23#

    2021-5-18 01:06:12


    网站不是还在么?

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    论坛元老
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题313

    帖子4650

    积分10511

    图文推荐