华人澳洲中文论坛

热图推荐

    俄版百度44.7G源码泄漏!遭前员工背刺,波及搜寻地图打车电商等一切次要办事

    [复制链接]

    2023-1-29 21:13:35 13 0

    原标题:俄版百度44.7G源码泄漏!遭前员工背刺,波及搜寻地图打车电商等一切次要办事  
    鱼羊 Pine 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    俄罗斯第一大科技巨头,这回赶上了大费事:  
    44.7GB源代码,全被泄漏到了网上。  
    甚么概念?  
    就是这家名为 Yandex的公司, 简直一切次要办事的源代码都被挖了个底掉……   
    要知道,在俄罗斯,Yandex不只干着搜寻引擎的活儿,还把俄国老黎民购物、打车、订外卖、租车这一连串糊口办事都给包圆了。  
    简略来讲,约等于俄版百度+淘宝+美团+滴滴。  
    这么大个事儿,天然惹起了全世界网友的围观。  
    但就在世人纷纭猜测这又是哪家黑客手笔之际,Yandex的声明却有些使人大跌眼镜:  
    咱们没有被黑,就是被前员工给卖了……
        咱们没有被黑,就是被前员工给卖了……  


    44.7GB源代码遭泄漏,代码被扒了个底朝天   
    详细来讲,泄密链接最先泛起在了一个黑客论坛上。  
    泄密者称,这份44.7GB的Yandex代码库,包孕该公司2022年7月之前,除反渣滓邮件规定以外的一切源代码。  


    展开全文    这些被泄漏出来的代码信息量究竟有多大?  
    看看网友们热气腾腾扒出来的细节就知道了……  


    Yandex不是以搜寻引擎起家,常被称作“俄版百度”/“俄版谷歌”嘛,那就先以搜寻引擎部份的代码为例。  
    一名名叫Alex Buraks的老哥就深扒了下Yandex搜寻引擎的排名规定,还戏称这对了解谷歌SEO (搜寻引擎优化)有得多有用的信息。   
    毕竟Yandex和谷歌的搜寻后果有70%的婚配度,不少人以为其搜寻技术用的就是谷歌同款:如PageRank、BERT等。  
    (掌握了Yandex的规定不就至关于透了谷歌排名算法的家底,手动狗头)  


    目前曾经有大批吃瓜群众来围观,乃至Alex Buraks的这条线程曾在谷歌搜寻“yandex”中排名第8。  


    乏味的是,在Yandex的排名要素中,排在第一个的就是 PageRank。   


    Buraks还间接列出了Yandex的10个排名要素:  
    (1)链接的创立时间;(2)流量和无机流量的百分比;(3)URL中的数字无益于排名;(4)URL中的斜杠无益于排名;(5)负面情绪太重的PageRank=0;(6)主机牢靠性;(7)“维基百科”还独自列了一个要素 ;(8)用户行动:点击率,跳出率等;(9)文件春秋与上次更新日期;(10)一切查问域名的均匀地位……
        (1)链接的创立时间;(2)流量和无机流量的百分比;(3)URL中的数字无益于排名;(4)URL中的斜杠无益于排名;(5)负面情绪太重的PageRank=0;(6)主机牢靠性;(7)“维基百科”还独自列了一个要素 ;(8)用户行动:点击率,跳出率等;(9)文件春秋与上次更新日期;(10)一切查问域名的均匀地位……   


    固然这还只是其中的一部份,Buraks表现后续还会持续剖析。  
    除了Alex Buraks,也有不少营销巨匠深扒了Yandex的排名要素,乃至有人都具体整顿出了残缺的 1900+个排名要素。   
    值得一提的是,在各路大神扒代码的过程当中,Yandex搜寻引擎的一些“潜规定”也被摆上了台面。  
    就好比说加拿大黑客Aubrey Cottle就在代码中发现了Yandex是容忍种族歧视的。  


    还有网友在代码中发现,Yandex的广告投放中,普通广告和色情广告是离开计算的。  


    民间声明:没有被黑,是前员工泄密   
    这事儿一出,很快还有一份具体的泄密文件目录被整顿出来放在了GitHub上。  
    作者是一名名叫Arseniy Shestakov的软件工程师。据他评价,这些源代码的确波及了Yandex的一切次要办事。  
    包罗:  
    搜寻引擎和索引机器人  地图办事  AI语音助手  打车办事  广告办事  邮件办事  存储办事(相似百度网盘)  电商办事(相似淘宝)  游览办事  云办事    还包罗在线协同办公、领取、数据剖析等等业务。  
    不外,泄漏内容其实不包罗用户数据等敏感信息。  
    Arseniy Shestakov总结了几个症结细节:  
    泄漏出来的次要是git存储库里的源代码,不包孕git历史记载  一切文件日期都可追溯至2022年2月24日  大部份软件都没有事后编译好,只要多数例外  除了一些例外,没有事后训练好的机器学习模型   


    Yandex办公楼   
    事件闹得这么大,Yandex民间也坐不住了,很快颁发声明表现:其实咱们并无被黑,是前员工出卖了咱们!  
    Yandex没有被黑。咱们在公共畛域发现了泄漏自外部存储库的代码片断,但其内容与Yandex以后使用的代码版本其实不相反。
      存储库是用来存储和处置代码的工具。大少数公司都采取这类形式来使用代码。
      代码库并未存储集体用户数据。
      咱们正在进行外部考察,但并无发现该事情给用户数据战争台机能带来了任何要挟。
        Yandex没有被黑。咱们在公共畛域发现了泄漏自外部存储库的代码片断,但其内容与Yandex以后使用的代码版本其实不相反。  
    存储库是用来存储和处置代码的工具。大少数公司都采取这类形式来使用代码。  
    代码库并未存储集体用户数据。  
    咱们正在进行外部考察,但并无发现该事情给用户数据战争台机能带来了任何要挟。  
    Yandex倒是山盟海誓,但内部的专业人士却有不同看法。  
    据bleepingcomputer动静,前Yandex技术专家Grigory Bakunov对此事做出了回应。  
    他以为,这次代码泄漏的确不会对用户的隐衷或平安构成间接危险,也不会间接要挟到Yandex的专有技术。  
    不外一些文件仍可能会袒露正在运转的办事,好比说“blacklist.txt”,Bakunov还称:  
    只管泄密的部份不波及敏感数据,但黑客针对性利用代码中的平安破绽,只是时间问题;
      (BTW)虽然Yandex民间回应泄漏的代码与公司任务办事中使用确当前代码不同,但 类似度可能高达90%
        只管泄密的部份不波及敏感数据,但黑客针对性利用代码中的平安破绽,只是时间问题;  
    (BTW)虽然Yandex民间回应泄漏的代码与公司任务办事中使用确当前代码不同,但 类似度可能高达90%。   
    —   
    百度钻研院、阿里达摩院、量子位智库  
    年度十大科技讲演  
    总结2022,预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布, 点击下方图片便可跳转查看。   
    百度钻研院  
    阿里达摩院  
    量子位智库  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题22

    帖子29

    积分130

    图文推荐