admin 管理员组

文章数量: 1184232


2024年2月25日发(作者:高级启动快捷键)

I.

WordSmith Tools 简介:

WordSmith Tools 是一个在Window下运行的用来观测文字在文本中的表现的功能强大的综合软件包。它共包含 Concord (语境共现检索工具)、WordList (词频列表检索工具)、KeyWords(关键词检索工具)、Splitter(文本分割工具)、Text Converter

(文本替换工具)、Viewer(文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索工具,后面三个程序属于辅助性工具。这六个程序的各项设置由一个叫WordSmith Tools Controller(文字匠工具控制器)的程序来控制。

II.各个工具的操作和主要功能介绍:

1.Concord

1)基本操作过程:

在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到Concord。单击它,Concord的窗口将打开。

按下按钮,将出现一个对话框,选择将进行语境共现检索的文本文件。

确定一个检索词或短语。

如果要改变设置,按Horizons etc按钮,对缺省的设置值进行修改。

按 Start Concordance 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,结果显示在Concord 的窗口。

如果要保留语境共现检索的结果,按

2)主要的功能:

语境共现(Concordance):

语境共现(Concordance)的窗口显示:

按钮存盘。

语境共现(Concordance)的窗口包括六个纵列,例如:

A.

N 列:显示检索项的数目。

B.

Concordance 列:显示语境共现检索的结果。

C.

Set 列:在这一列,用户可以使用任何字母对条目进行分类。例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母V或N。要清除键入的字母,按0(零)。

D.

Tag 列:显示最接近的标记符号。

E.

Word No. 列:显示检索词在文本中的位置。例如,上面例子中条目1 的检索词good 是文本的2,265个单词。

F.

File 列:显示源文本的文件名。

G.

% 列:以百分比的形式显示检索词在文本中的位置。

要想得到有关语境共现检索的结果的更多的信息,按下面的按钮:

按 按钮 ,可增加语境共现检索的结果每行的显示量,按按钮 ,可减少语境共现检索的结果每行的显示量。

按(

按)按钮,可启动文本浏览工具(Viewer),对源文本进行查看。

按钮,可查看检索词在规定的语境范围内的搭配词的情况。例如,下图是在上例中检索词good在左右各五个词的语境范围内的搭配词的情况。从图中可以知道,搭配词very共出现29次,其中在good的左边26次,右边3次,而在左边的26次中有23次是作为左边的第一个单词出现。

按()按钮,可打开检索词分布图窗口。检索词分布图窗口显示的内容如下:

File 源文本文件名

Words 源文本文件中单词的数目

Hits 找到的检索词的数目

per 1,000 每千字检索词的数目

Plot 检索词分布图显示检索词在文本中出现的位置

按按钮,Concord将检索语境共现检索的结果中的句子,找出重复出现的字串(word clusters)。字串的大小的推荐值一般为2—4个字,最低出现率为3个。例如:

按()按钮,打开用词类型(Patterns)窗口,显示临近检索词的单词的统计资料。这些单词按出现频率的高低从高到低排列。例如:

取消检索词

按空格键或选择窗口View选项中的Blanked out, 语境共现检索的结果中的检索词将被一行星号代替。要恢复检索词,重复一次前面的操作。

对语境共现检索的结果重新排序

语境共现检索进行时,检索的结果是以语境在文本中的出现顺序排列的。当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。如果不想重新排序,将缺省值设定在File, File 位置。语境共现检索的结果重新排序有以下几种方式:

A.

根据检索词的左或右的某个位置的单词进行排序。

B.

根据检索词本身进行排序。

C.

如果有语境词,可根据语境词进行排序。

D.

根据最近的标码符号进行排序。

E.

根据与最近的标码符号的距离进行排序。

F.

根据用户自己的分类进行排序。

G.

根据在文本中的出现顺序排序。

语境共现检索结果的重新排序,可以根据三重标准同时进行。这三重标准分别在Main Sort, then by, finally by 三个对话框中设定。另外,重新排序时,可以设

置区分或不区分大小写,按升序还是降序排列,既可以将所有的检索项重新排序,也可以设定将一定范围内的检索项重新排序。

保存和打印语境共现检索结果

可以将语境共现检索的结果保存为文本文件或是可以在Concord再打开的文件。按下F3 或选择File 的Print选项,将打印语境共现检索的结果。

3)参数设置:

检索词(search word):

A.

检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。

B.

按照缺省设置,Concord进行的是不区分大小写的整词检索。格式如下:

结果book

Book or

book or

BoOk

book

book, books, booking,

booked

*book

textbook (but not

textbooks)

bo* in

book in, books in, booking

in (but not

book into)

book * hotel

book a hotel, book the

hotel, book my hotel

bo* in*

book in, books in, booking

in,

book into

book?

book, books, book; book.

book^

book, books

b^^k

book, back, bank,

etc.

==book==

book (but not

BOOK

or Book)

book/paperback

book or

paperback

符号 意义

* 代表多个任意字符

例子

book*

代表单个任意字符(包括标Engl

点符号)

^ 代表单个任意字母

== 区分大小写

Fr^nc^

==French==

==Fr*==

: 表示一个可包含多达500

c:textfr个检索词的文本文件 (参看

帮助中的 file-based

search words)

/ 分隔多个检索词。你可以选may/can/wi择多达15个检索词,但字符ll

的总数不能超过80。

如果要使用 *, ? , == , ^ , : or / 作为检索词中的一个字符,要将这些符号放到双引号内,例如:

"*"

Why"?"

and"/"or

":"

语境词(context word):

A.

为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出现或不出现。

B.

语境词的输入格式与检索词的相同,只有一个不同的符号~ 。~表示该词在规定的语境范围内不出现。例如:

当search word是book 而 context word是 hotel* 时, Concord将只会找到hotel or hotels 出现在其语境范围内的book 。

当search word是book 而 context word是 ~paper* 时, Concord将只会找到paper or papers 不出现在其语境范围内的book 。

语境范围(horizons):

语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。最高值是 左右两边各可出现25个单词。

检索项的数目(entries wanted):

语境共现中检索项的数目的最大值可达16,368 行。 但用户可以在 Controller 的Adjust Settings | Concord选项中对检索项的数目自行定义,还可以设定Concord 对检索项进行随机抽取。

搭配词(collocate):

搭配词的最短长度为一个字母,最低出现频率为一次。但是在语境共现中出现一两次的搭配词是不能说明什么问题的。用户可以在 Controller 的Adjust Settings |

Concord选项中对搭配词的最短长度和最低出现频率自行定义。

2.Wordlist

1)

基本操作过程:

在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到WordList。单击它,WordList的窗口将打开。

按下按钮,将出现一个对话框,选择一个或多个文本文件。

按 Make a word list now 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,WordList出现三个窗口显示检索结果。这三个窗口分别显示以字母为序的词频列表,以频率为序的词频列表以及综合统计数据。

如果要保留词频列表的结果,按

2)

主要的功能:

创建词频列表(word lists):

词频列表(word lists)的窗口显示:

按钮存盘。

以字母为序的词频列表的窗口(部分)显示如下:

以频率为序的词频列表的窗口(部分)显示如下:

综合统计数据的窗口(部分)显示如下:

创建单词索引列表(index lists):

单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在文本的那一部分出现。另一作用是加快对列表中单词的检索处理,例如,如果选择列表中一个或多个单词,按下按钮,就会得到快速的语境共现检索的结果。另外,在单词索引列表中,还可以计算单词与那些词搭配以及与搭配词的相关值( “Mutual Information” scores)

建立单词索引列表

打开 Controller, 选择Adjust Settings | Indexing 选项,进行以下的设置:

A.

确定单词索引列表的路径和文件名。

B.

激活Actitated对话框。

C.

激活File order too对话框(非必选)。

D.

选择出现多少次的高频词要被删除。

E.

按OK按钮。

打开WordList, 选择菜单Index的New Index 选项, 指定要进行操作的文本文件,再选择Index的New Index 选项。检索结束,将在指定的路径生成三个扩展名分别是*.wdx, *.xfo, 和*.xal的文件。

浏览建立的单词索引列表:

打开WordList, 选择菜单Index的 Alphabetical List 选项或File Order List

选项。选定要打开的单词索引列表文件,就可以浏览建立的单词索引列表。例如:

计算相关值(mutual information):

A.

要计算相关值,单词索引列表必须是在激活了 “File Order too” 复选框的情况下建立的。

B.

选择菜单Index的 Alphabetical List 选项,打开建立的单词索引列表。

C.

按按按钮,选择要计算相关值的词条,然后按按钮。如果没有选择任何词条,按钮将计算单词索引列表的所有词条的相关值。例如,在上图中,词条answer在文本的最常见的搭词是know,它们的相关值4.48。

词频列表的批处理

用户可以一次选择多个文本进行词频列表的创建。例如,选择10个文本同时进行词频列表,既可以得出一个基于10个文本的大的词频列表,也可以得出十个分别基于10个文本的的词频列表。

字串的词频列表:

词频列表不必一定以单词为单位,也可以以2-8个单词的字串为单位创建词频列表。选择WordList 主菜单的 Settings | Min. & Max. Frequencies 选项,激活复选框,选择字串的大小,就可以进行字串的词频列表。

对词频列表的编辑:

合并词条到同一词类(Lemmatisation): 例如,你可以将属于不同类型(type)的词条want; wants; wanting; wanted 合并到同一词类(lemma) want中。

手动合并:

A.

使用 F5 选定要合并的词条, 第一个被选定的词条将成为词类(lemma)的名称(head)。

B.

使用 F4 可将所有选定的词条合并。

基于文件的合并:

建立一个将属于同一词类的不同类型(type)的词分组归类的文本文件(例如,be->was, is ,were, am, are go->goes, going, went, gone)。按按钮,WordList将根据文本文件的分类为标准对当前词频列表的所有词条进行词类(lemma)合并。

词类(lemma)合并结束后,按

词频列表的排序:

按按纽或F6,可对词频列表重新排序。

按钮,将显示重新计算的综合数据。

选择正确的语言:许多语言有自己特殊的字母排列顺序,所以在排序或重新排序之前,应检查是否在语言选项选择了正确的语言。另外,在缺省值中,某些语言中的带重读符号的字母与不带重读符号的同一字母是同等对待的。

按单词结尾排序:选择反向排序选项(Reverse Sort), 可以按单词的结尾的字母顺序排序。这样,就能将以某种后缀结尾的单词,例如,-ing 形式结尾的单词列在一起。

比较两个词频列表:

选择WordList中 Comparison菜单下的 Compare 2 Wordlists 选项,选中两个要进行对比的词频列表,就可以对两个词频列表进行比较。这一功能可以帮助进行文体方面的比较。例如,比较一篇文章的不同译本中对某个词的不同翻译。

简单一致性分析:Consistency Analysis (simple)

这一功能可以对超过五十个词频列表一次性进行比较分析,然后生成一个基于所有文本的词频列表。这一功能可以帮助找出哪些词是在大量的某一特定类型的文本中一贯出现的。

详细一致性分析:Consistency Analysis (Detailed)

这一功能与简单一致性分析的功能完全一样,只是提供的分析更为详细,而且进行分析的词频列表不能超过五十个。这一功能可以帮助进行文体方面的比较。

3.KeyWords

1)主要功能:

KeyWords 主要作用是确定某个文本的关键词是什么以及它们在文本中的位置。要实现着这一目的,必须先用WordList 工具建立两个单词列表。这两个单词列表中,一个是根据要考察的文本建立的,而另一个作为参照的单词列表,必须是根据较大型的由同类文本组成的语料库建立的。大的单词列表将为比较提供背景数据。

文本中的关键词(key words),是指在两个单词列表的比较中得出的那些在所考察文本中出现频率突出的词。得出的关键词以它们在文本中的出现频率的突出程度由高到低排列。

KeyWords 的潜在用途包括:语言教学,文体研究,文本内容分析,文本归档等。

2)KeyWords 的参数设置

在Controller中的Adjust Settings/KeyWords 选项下,可以对以下的参数进行设置:

a.

最大的P值。

b.

关键词列表的最大数目。(缺省值是500)

c.

关键词在所考察文本中的最低出现频率。(缺省值是3次)

3)

基本操作过程:

在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到KeyWords。单击它,KeyWords的窗口将打开。

按下按钮,将出现一个对话框,在对话框选择一个要进行研究的单词列表和一个作为参照的单词列表。

按 OK 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,KeyWords出现一个窗口显示关键词列表。

如果要保留关键词列表的结果,按

按钮存盘。

关键词列表的显示窗口包括以下内容(见下图):

a.

每个关键词。

b.

关键词在所考察的文本中的出现频率。

c.

要考察的文本的文件名及百分比。

d.

关键词在参照文本中的出现频率。

e.

参照文本的文件名及百分比。

f.

关键词的关键值。

g.

p 值。

4)对关键词列表的结果的编辑:

按窗口中的

每按一次按纽,将会显示关键词在文本中的分布图。

按纽,关键词列表的结果将会按照下面的顺序循环排序:以关键值为序,以字母为序,以在考察文本中的关键词的频率为序,以在参照文本中的关键词的频率为序。

III.三个辅助工具主要功能简绍:

4.Splitter(文本分割工具)

Splitter的用途是为了文本分析的目的将大的文件分割成小的文本。它通过在大的文本中插入某个符号,例如 , Splitter将自动识别这些符号,将大的文本分割成若干个小文本。

5.Text Converter (文本替换工具)

Text Converter这一程序的主要功能有:

A.

编辑文本,对文本进行重命名,改变文件的属性,将文件移动到新的路径。

B.

在文本中执行搜索和替换功能。它一次可以搜索多达16,368个文本文件,并可以同时进行500个条目的替换。

6.Viewer(文本浏览工具)

Viewer的主要作用是帮助使用者浏览源文本文件。在使用三个文本检索工具的时候,只要按浏览工具按纽

关于Word文件转换:另类技巧

WordSmith的安装后的目录下有一个文件,这便是文件转换程序。

你可以按上面所说的格式保存一个Word文档,再把文档用鼠标拖到程序图标上,再用PilotInstall快速装入Palm。

这样不必每次去HotSync.

不过你要把palm端的WordSmith格式的文档同步转换为Word格式的话(保证不是乱码),还必须照着前面的方法做->改字体为宋体。

你可以在Palm端的WordSmith中打开某个文档的“Details”,通过勾选“Sync”选项来打开或关闭桌面端转换WordSmith格式为Word格式的功能

Billy_H 编辑于 2004-10-31 23:43:41

关于WordSmith乱码解决方法:

技巧如下:

pe制作一个宋体文件。同步到Palm上。

奉上我做的字体

宋体.rar

2.打开要编辑的文档(打开PalmDoc文件或是直接打开用WordSmith桌面端转换的WordSmith专用文件,其默认的字体都是Plain),“select all”所有的文字,再把字体选为宋体,,就可启动Viewer。

这样同步到PC上就可以正常显示中文了。

3.注意每次有新的WordSmith同步都要按2步骤操作一次。


本文标签: 检索 文本 列表 进行 语境