语料库检索,索引行分析,统计方法等内容讲解
树图思维导图提供 语料库基本技术思维脑图 在线思维导图免费制作,点击“编辑”按钮,可对 语料库基本技术思维脑图 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:fb4ce56d5b70852d2caaa6201a67cbd3
第三章语料库基本技术 思维导图模板大纲
3.1 . 1 简单检索
在 AntConc 中进行简单检索
( 1) 从 AntConc 主界面的 File 菜单中选择 "Open File(s)" 选项,浏 览找到并选定文本。如果需要选择某文件夹下的所有文本, 可从软件主界面的 File 菜单中选择 "Open Dir... ", 然后浏览到并选定文本所在的文件夹;
(2) 点击 AntConc 主界面上方的 Concordance 选项卡的检索项输入框(参见 图3.1 ) 中输入需要检索的词或短语(如 book, in spite of 等),
(3) 在 检 索 项 输入框上方的检索模式设定区选择 "Words" 模式,
(4) 单击 ( Start】按钮开始检索。
基于文件的检索
(1) 打开记事本或其他文本编辑器, 把检索表达式(如以上的 6 个表达式)逐一输入到文本编 辑器中(每行一个),然后保存文件(以下称表达式文件),
(2) 运行 AntConc , 加载语料;
(3) 点击检索项输入框右侧的 [ Advanced】按钮, 激活对话框,
(4) 选 中 "Use search term(s) from list below" 选项;
(5) 单击 ( Load File】按钮, 浏览找到并选中步骤 ( 1 ) 中保存的表达式文件,点 击 【 打开】按钮, 返回到图 3.5 所示对话框中,这 时 表达式文件中的表达式已被加载到对话框中,
(6) 点击 ( Apply】按钮, 返 回到 AntConc 的主界面,点 击 【 S ear c h】按钮, 完成检索
3 .1. 2 复杂检索
在复杂检索中,检索项常常是较为模糊的,比如说对赋码语料中词性和各种句 式结构的检索。复杂检索中我们一般使用正则表达式。
词性赋码文本中的规律性
(1) 赋码文本中夹杂很多代码,使 得其可读性较差。因此, 观察词汇相关的语言现象时分析生文本可能更为方便, 而观察语言的语法属性时使用赋码文本应更为方便
(2) 在赋码后文本中, 每一个形符(词和大多数标点符号都是各自独立的形符)后都带有赋码,文本中原有的形符和对应的代码之间总有分隔符(常见的分隔符有"_"和"/")分开,使得 词和码之间形成一个“词_码”结构,而相邻的"词_码”结构之间总有且仅有一个空格。观察赋码文本中语言的语法属性时应首先找到分隔符。分隔符之前的部分是原文本中的形符,其规律性不强。我们需要着重分析分隔符之后代码的属性;
(3) 词性赋码器在赋码的同时对文本进行了分词和断句。在以上例子中, 生文本中的 day' s 被分成了 day 和 ' s 两个词。此外, 赋码后的文本被分为若干个句子, 每句独自占一行。词性赋码器断旬的依据可能是标点(如句号、问号等);
(4) 不同词性赋码器所使用的整套代码存在较大差异,且 代码的总数也不同(这一代码集称为赋码集 ( tagset )。Tree Tagger 和 CLAWS4 的赋码集详见附录一和二);
(5 ) 各种赋码器的赋码存在很强的内部规律性。一般说来, 每一个词性赋码由 2 至 4 个字母、数字或其他符号构成,这些符号具有很强的层级体系,从代码的第一个符号可以看出词类(如 名词、介词等)。
在AntConc中利用正则表达式进行复杂检索
( I) 点击 File 菜单中的 "Open File(s)" 或 "Open Dir…”, 加载语料。特别注意所选语料必须是词性赋码后的语料;
(2) 编写正则表达式, 并将正则表达式输入到检索项输人框(参见图 3.1) I
(3 ) 在 检 索模 式设定区(参见图 3.1 ) 选择 "Regex" 选项;
( 4 ) 点 击【Search】按钮, 程序开始在加载的语料中查找与输入的正则表达式相匹配的字符串;
( 5) 观察索引行中的节点与自己想查找的语言单位是否吻合, 如果不吻合, 重新分析正则表达式,必 要时对正则表达式进行修改, 然后重复步骤 (3 ) 和 (4 )' 直 至达到最为满意的结果为止。
3. 1 . 3 Pattern Builder与Pat Count
P a tt e rn B u il d e r 的特点
( I ) 良好的性能:
( 2 ) 灵活的赋码集设置:
(3 ) 方便、直观、搭积木式的正则表达式编写方法:
(4) 便捷的正则表达式调试功能:
(5)保存正则表达式:
Patt ern Builder 的基本操作
PattemBuilder 的使用十分简单。用户首先确定需要检索的第一个词性赋码的首字母, 然后选中程序主界面左上方窗口中对应的字母,点 击【Expand =>】按钮, 右上方窗口中便会列出以该字母开头的所有词性赋码及其注释文字。由于词性赋码有很强的规律性,窗口中列出的其实是某一类 赋码及其注释文字。用户选择其中所需要的一类,点 击窗口下方的 [ Get Pattern】按钮,便 可以得到第一个正则表达式组块。按照同样的方法,可以获得更多的正则表达式组块,直至得到完整的正则 表达式。此时,只需 要点击【Test this pattern] 按钮,便 可以对所编写的正则表达式进行测试,得 到若干个匹配的索引行。有效使用 PattemBuilder, 可以方便正则表达式的编写,提高复杂检索的能力。
利 用 P a t C o u n t 进 行 快 速 数 据 提 取
3.1 . 4 语料库检索中需要注意的几个问题
(1) 关千表示词的通配符。
(2) 标点符号的检索。
(3) 要学会合理使用 "Regex" 模式下的边界符 ( " \ b " )。
(4) 在检索中设定语境条件。
(5) 正则表达式中的字符组。
(6) 正则表达式中的元字符 { m t a c h a r a ct e r ) 和 大小写的区分。
(7) 索引行的导出和再检索。
(8 ) 对索引行的抽样处理。
(9 ) 检索与遗漏问题。
3. 2. 1 索引行抽样
语料库中含有大量的语言使用实例,然而在对这些语言使用实例进行归纳时,索引工具给我们展现的是成于上万个索引行,使我们淹没于这些数据之中。为此, Sinclair (2003)提出,在形成自己的假设时,首先可以从少量的索引行开始。Sinclair (2003 ) 主张每次从大型语料库中抽取一屏左右的索引行(约23行)进行观察,形成初步的假设之后再进一步增加索引行数量,验证假设,并在必要时对原有的假设进行修改、完善,直至最终提出最合理的理论。
3 . 2 . 2 索引行分析步骤
(1)运行索引工具,载入语料库或索引抽样所得到的文件(我们在光盘中 TOOLS 文件夹内准备了一个名为 undergo.txt 的 索引行文件,用户可以从该文件所包含的索引行中进行抽样),输入 了 检索项,得到索引(由于只有30 个左右的索引行,这一 操 作十分容易,速度快 。
(2) 确定节点左侧第一个词中哪一个是出现频率最高的。对该词的特点进行分析。在进行这一操作时,可以使用索引工具的排序功能(参见下图),这样便于观察。
(3 ) 确定哪一个词是节点右侧第一个词中出现频率最高的。对该词的特点进行分析。我们可以按照与步骤 (2 ) 相同的方法以右 l 作为第一标准进行排序。排序后可以得到表 3.4 所示结果。
( 4 ) 由索引行观察转到搭配分析,观 察节点左1和右1的搭配词,进一步验证步骤 (2)和步骤(3)中得出的初步结论。由索引方式直接切换到搭配分析方式,以另一种方式来观察 undergo 前后语境的特点。
( 5 ) 对语境和搭配中的跨距进行扩展, 观察节点左 2、右 2、左 3、右 3 等位置上的词, 进一步验证我们已有的初步结论。
( 6) 观察那些例外的索引行,如果发现这些索引行只是我们已有的初步结论的扩展(如名词扩展为名词短语等),则可以考虑将该行归入我们前一步分析的结果中,同时对已有结论作必要的扩充。逐一标记例外的索引行,随时准备对已有的初步结论进行修正,以概括更多的索引行。
(7)将语境分析由对搭配词的分析和搭配词词类的归纳扩展到意义,看看节点词的搭配词在意义上是否有明显的特点。注意其中是否有例外情况。
(8)从索引行文件中重新抽样,得到另外一屏(约30个)左右的索引行,逐一分析,获取更多的例证来支持已有的结论,同时对反例进行统计。
(9) 对所记录的例外情况进行分析,寻找其中的规律,尝试对反例进行归纳。
3. 3. 1 词表
确切地说, 在语料库语言学领域内,词表指的是词频表 (freq uency list) , 而不单是纯粹的单词列表。
3 . 3 . 2 词表的生成
1 ) 停用词表:所谓停用词表就是预先准备好一个词表,其中包含我们不希望出现在最终词表中的单词。
2 ) 词形还原 词形还原在实际词表分析中更为常用。
3 . 3 . 3 词簇表
3 . 3 . 4 词簇表的生成
3 . 4 . 1 基本准备
主题词表可以用千多种分析目的。选择何种文本,选择多少文本以及选择哪一个语料库作为 参照语料库,取决千个人的研究目的和设计。生成主题词表需要以下准备工作:
1) 观察文本(单篇或多篇):观 察文本必须是生文本,需 要进行预处理 , 删除文本中所有的赋码及噪杂信息;观察文本必须是完整的连续文本。
2 ) 参照语料库:该 库 必 须大于观察文本,必 须是生文本,需 要 做 相同的预处理。
3)带有主题词表功能的索引软件(推荐使用 AntConc )。
4) 观察文本和参照语料库分别放置在不同的文件夹中,注 意 保 留备份。
3 . 4 . 2 基本操作
1)打开 AntConc,在 File 菜单下选择"Open File(s)" 选项:
2) 找到存放观察文本的文件夹, 打开需要分析的单篇文本:
3) 单击选项卡 【Word List], 然后再单击 【Start】, 生成观察文本词表:
4)单击菜单中的"Tools Preferences",进入设置视窗, 选择"Keyword List" ,单击【Add Directory】, 如下:
(5) 找到参照语料库文件位置,打开该文件夹。
(6)文件内所有参照语料库文件被调入,可见文件列表,单击【Apply】
(7)回到AntConc主界面,单击选项卡【Keyword List】,然后单击【Start】,就可以生成主题词表。
3. 5 . 1 语料库与统计方法
3 . 5 . 2 频数标准化
1 ) 基本原理
通常语料库检索、词表生成结果中都会报告频数 (frequency, freq 或 raw frequency )。那么某词(如 many ) 在某语料库中出现频数为 100 次说明什么呢?这个词在另一个语料库中出现频数为 105 次, 是否可以说 many 在第二个语料库中更常用呢? 显然, 不能因为 105 大于 100, 就认定many 在第二个语料库中更常用。这里大家很容易想到, 两个语料库的大小未必相同。按照通常的 思维,我们可以算出 many 在两个语料库中的出现百分比, 这样就可比了。这种情况下,我们是将 many 在两个语料库中的出现频数归到一个共同基数 100 之上,即 每 100 词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。在有些文献中,标准化频率也称归一频率 或标称频率,即基千一个统一基准得出的频率。
2 ) 实例及操作
频数标准化, 首先需要用某个(些) 检索项的实际观察频数(原始频数,raw frequency)除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在 频数标准化操作中, 我们通常会在此基础上乘以 1 千 ( 1 万、 l 百万 ) 得到平均每千(万、百万) 词的出现频率。即:标准化频率=观察频数/总体频数×1000.
3 . 5 . 3 频数差异检验
在统计学中,常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。在语料库数据分析中,最常用的是卡方检验(chi-square或x)和对数似然比(log-likelihood ratio,常简写为L.L)。两种检验方法的作用和实际操作类似,以下我们重点讲解卡方检验。这两种检验方法也可以用于搭配强度计算。
基本原理: 与频数标准化不同, 卡方检验除了考虑到某个检索项在两个不同语料库中的田现频数和磨科库大小外,还考虑到检索项在语料库中不出现的情况。例如,在1000词的文本中the出现50次,那么它不出现的情况就是余下的950次。类似的频数数据,我们用到的是2x2联列表(contingency table)方法的卡方检验。在统计学上,综合该检索项在两个语料库中出现和不出现的情况,统计学家提出了该检索项理论上的预期频数,其算法是:x²=∑(观测频数-预期频数)²/预期频数
3 . 5 . 4 搭配强度计算
基本原理: 搭配强度的计算在实际应用中主要有两种处理方法;以Mike Scott的Wordsmith Tools 为代表的经典搭配计算法,以及Stefan Evert提出的BNCweb的搭配计算方法。两种方法的不同主要在于是否将跨距作为搭配的核心毒在要素(Wordsmith Tools计算Z值时用到跨距,BNCweb的算法中多数都用到跨距)。计算搭配强度的主要算法包括:互信息(MI, mutual information和M13),Z值(Z-score),T值(T-score),Log-log值、卡方值(x²)、对数似然比(Log-likelihood ratio )、 Dice系数等。这些方法各有优劣。需要略加说明的是,卡方和对数似然比既可用于检验单个词项跨语料库频数差异的显著性,也可用于检验两个词在同一个语料库中一定跨距内的共现强度。
树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a
树图思维导图提供 第1章 化工设计基本知识 在线思维导图免费制作,点击“编辑”按钮,可对 第1章 化工设计基本知识 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:70ec0519ed26419068a32a511862aadd