华人澳洲中文论坛

热图推荐

    译技术 | 媒体言语语料库:供媒体人选择的宝库

    [复制链接]

    2022-11-30 07:02:11 18 0



    1. 工具简介
    媒体言语语料库(Media Language Corpus, MLC)又可称作中国传媒大学有声媒体文本语料库,是一个凋谢的、收费使用的语料库,由中国传媒大学国度言语资源监测与钻研有声媒体核心研发。自该平台在05年上线以来,语料范围不停扩张,转写了少量播送、媒体等语料便于泛博钻研者使用。本语料库中一切文本都进行了分词和词性标注,而且为包管语料的典型性和代表性,每一年都会选择流通度大、年度间有一定延续性的节目文本。
    本语料库囊括2008-2010年间的播送、电视节目的转写文本,用户能够搜寻指标症结词或字符串,按检索菜单所提醒的分类规范选择,即可获取选定媒体种别下的指标文本。
    官网:http://ling.cuc.edu.cn/RawPub/
    2. 图文教程
    2.1 相熟“检索规模选择”
    民间页面如下图:


    在进行检索以前,理解如何使用“检索规模选择”功用能够很大水平上放大咱们的检索规模,进步检索精确率。
    查看导航栏,能够看到“检索规模选择”选项,菜单栏如下:


    用户能够选择“媒体”、“级别”、“单位”、“方式”、“语体”、“内容”、“对象”、“栏目”、“频道”、“掌管人”、“时间”等选项。以上选项用户能够根据次第填写一切内容,也能够不做规模限定,那末用户在搜寻框输出的指标对象将会在一切语料库中进行筛选。罕用的选项有媒体、方式、栏目、掌管人等,“媒体”栏可供选择“电视”、“播送”,“方式”栏能够分为“独白”、“对话”、“说话”、“综合”等,假如用户想要搜寻白岩松的“旧事1+1”栏目,那末用户只需求在掌管人栏填写“白岩松”,在“栏目”中进行相应的筛选便可。
    2.2 惯例搜寻
    1) 生语料
    语料方式分为生语料、熟语料两类,生语料是原始语料,熟语料是通过分词和词性标注的语料。下列是使用生语料搜寻的相干教程。以“败北”为例,用户在检索输出框中输出“败北”,点击语料方式“生语料”,不进行检索规模的限定,检索后果如下图所示:


    本语料库中一切语料都进行了元数据标注,用户能够点击每行记载后的“查问”键,便可阅读相应的文本及文本出处。另外,在搜寻后果下方还有“排序”、“二次检索”,用户能够按照本身需要进行下一步的选择,搜寻后果也能够用文本保留上去,供学习整顿使用。
    2) 熟语料
    在熟语料检索时,用户能够搜寻特定词性的词,然而要留意在词性后面加“/”,输出“证实/n”,表现检索一切词性的“证实”后加名词的词串,若要检索动词“证实”前面加名词词串,则要输出“证实/v/n”。
    2.3 初级检索
    初级检索栏位于导航栏“首页”栏右边,能够完成“成对字串检索”、“堆叠检索”和“正则表白式检索”等功用,详细步骤如下:
    1)成对字串检索
    能够完成成对泛起的词语的检索,如关联词。成对字串之间的词间距能够自在选择。以“只要”...“才”为例:


    2)堆叠方式检索
    堆叠方式检索的对象为指标文本中泛起堆叠字样的词泛起,有AA(瞧瞧、暗暗)、ABAB(筹备筹备)、AABB、或特殊的带指定4字N的ANA型。其中ABB、ANA型,A必需指定,下列搜寻ABB,A指定为“甜”的相干搜寻后果:


    3)正则表白式检索
    正则表白式功用能够完成较为繁杂的检索,如能够完成“儿话词”的检索等。
    3. 学习心得
    语料库作为一种数字化的学习资源和教育资源遭到了普遍关注,检索时只需求输出想要查问的辞汇或词串,检索后果就会将指标辞汇的先后文罗列出来,并表明出处,这很大水平上能够加重用户的担负。经过对媒体言语语料库的学习运用,不只有助于丰硕旧事辞汇量,晋升媒体素养,同时也无利于拓宽思惟,使学习更自主、更便捷。
    注:学习作品,仅供参考,欢送斧正。
    作者:王燕娟 编校:布兰妮

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题38

    帖子44

    积分201

    图文推荐