admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:java开发网站用什么框架)

2013年5月 

第33卷第3期 

图书馆论坛 

Library Tribune 

May.2O13 

Vo【_33 No.3 

标签云在学术资源揭示中的研究与应用 

以中国知网数据库中图书情报类核心期刊论文关键词为例 

沈奎林,邵 波,卢 明 

(南京大学图书馆,江苏南京210093) 

[摘 要]随着Web2.0的各种技术应用在各种互联网产品中,图书馆尝试用Web2.0技术改造原有的产品 

以提高服务质量。文章介绍Tag的概念和基本应用,结合文献调研和现状分析,提出将文献数据库中文章的关 

键词提取出来,利用Tag技术以标签云的方式进行展示,提供一种新的检索和导航方式。以中国知网收录的图 

书情报类核心期刊为来源,介绍实现思路,给出实现步骤,得到比较好的应用效果。 

[关键词]标签云;标签;学术资源;中国知网;关键词 

[中图分类号]G35O [文献标识码]A [文章编号]1002—1167(2013)03-0036—07 

[引用本文格式]沈奎林,邵波,卢明.标签云在学术资源揭示中的研究与应用——以中国知网数据库中 

图书情报类核心期刊论文关键词为例[J].图书馆论坛,2013(3):36—42. 

目前Web2.0的应用层出不穷,标签(Tag)便是 践,有必要分析Tag Cloud的研究现状。 

其中广为应用的一项技术。Tag有分类、开放分类、 

大众分类、标签等多种说法。总的来说,Tag是一种 

分类系统,一种有利于搜索查找的关键词标记,可以 

将文章中的关键词或其他能揭示文章含义的词组作为 

CNKI(中国知网)是收录国内学术期刊比较全 

的平台,故笔者选取CNKI系列数据库来了解国内学 

者对标签云的研究。在CNKI中以“标签云”为关键 

词进行主题检索,获得30篇论文,可分为理论研究 

Tag来标记。Tag的加入不仅实现了对信息的自我组 

织,还参与实现了与其他用户的互动,产生基于Tag 

和实践研究两部分。刘斌和杨帆结合Web2.0应用数 

据,实现了多模式的餐厅信息推送服务,包括基于模 

糊条件约束的查询机制,基于位置的地图浏览模式和 

的信息共享和组织。每一个标签相当于一个分类,资 

源根据不同的标签被组织到不同的分类或者主题之 

下,所有用户的资源不仅存在于一个共享平台,而且 

相同的标签还能聚合不同用户相同分类下的资源 。 

Tag的这种特性适于聚合具有相同属性或相同、相似 

话题的资源,将Tag用于学术资源的揭示,可以将期 

基于三维标签云的协同信息共享机制,为用户提供实 

时的基于位置的餐厅个性推荐及导航 。周碧晖和李 

景升将标签云技术进行扩展,利用多级标签云模型对 

国防教育资源进行分类,结合树形结构和云状结构的 

资源管理方法的特征,较好地实现了国防教育资源的 

刊论文、学位论文等资源按照相关话题组织在一起, 

有利于学术资源按主题特性导航。 

快速搜索和导航功能,具有一定的实用价值。 。夏秀 

峰等提出个性化标签云中的标签排序算法,通过用户 

自身的兴趣与挖掘出的用户潜在兴趣进行标签排序, 

1 Tag Cloud研究现状 

标签(Tag)、标签云(Tag Cloud)和大众分类 

法(Folksonomy)是中外学者在Web2.0时代关注的 

构建个性化的标签云,并根据用户兴趣的变化定期对 

标签云进行更新,可以更好地发现电子商务网站中用 

户感兴趣的商品“ 。周雷和强巴旦增对几种知识组织 

方法中的民俗分类法和标签云作简要总结与展望 。 

热点。本文研究标签云技术在学术资源揭示中的实 

36 

2013年5月 

图书馆论坛 

Library Tribune 

May.2013 

第33卷第3期 

Vo1.33 NO.3 

总体而言,这些研究主要是对标签云的发展与概念的 

论述、标签云实现算法的研究、标签云在社交网络、 

数字图书馆以及知识导航等方面的应用。 

LISA(Library and Information Science Abstract) 

大量显性和隐性知识、结构化和非结构化知识,使其 

得到优化和升华,最终形成创新型知识。用户利用社 

会标签协同创作,自发形成虚拟社群,社群成员有着 

共同的关注点,能形成多个知识共同体,这些知识共 

同体保障了知识创新的顺利开展。 

(2)标签和标签云增强图书馆的服务和互动能 

收录了68个国家2O多种语言的550多种期刊的摘 

要,包括2O多个与图书馆学信息学相关的领域,数 

据库覆盖的时间从1969年起,每两个星期更新一次, 

每次增加约500条记录,通过LISA可以较全面快捷 

力。通过允许用户对图书馆的资源进行标注等功能增 

强OPAC的揭示能力;可以利用各种社交网络工具进 

地了解整个图书馆学信息学的学术前沿、研究热点及 

发展趋势 。在LISA数据库中以“tag cloud”为关 

键词检索,得到有效结果33个。这些外文文献从多 

个方面论述了标签云的理论以及具体应用。Trattner、 

Christoph提出一个新的资源列表生成方法,解决以 

往标签系统在导航方面的局限性,这个方法基于层次 

网络模型,用一个大的在线百科全书系统验证了算 

法,取得了明显的效果。 。Gao、Qin阐述了标签在 

个人信息组织中的性能、负载、内存和一致性的实证 

研究,从标签的概念、组织形式、激励用户去做标记 

等发面展开阐述。 。Clements,M等阐述了在社会化 

媒体搜索中个人对标签查询长度的影响问题,指出社 

会化内容系统由用户生成大量非结构化的内容,标签 

云变得越来越流行,已经成了一种交互性很强的查询 

界面,只需要用户点击相应的词组或术语唧。Hassan- 

Montero、Yusef等阐述了标签云的概念和特点,依托 

眼球跟踪技术研究标签云的表现形式,以特有字体和 

大小才能更好地满足用户的体验,收到更好的检索效 

果 。Sinclair、James等论述了标签云的概念和一部 

分使用标签云的典型网站,指出标签云的优点和用 

途,以及不足之处 ”。Louise F.Spiteri收集了三个 

网站Dli.icio.US、Furl和Technorati在3O天生成的标 

签,研究这些基于大众分类法的标签的语言结构,结 

合其他参考资料,认为大众分类法可以作为一个有效 

的、灵活的的工具,用来增强图书馆网站的用户友好 

性和交互性,以及基于用户驱动的咨询服务。 。基于 

上述分析,可总结出标签云的基本用途有以下几个: 

(1)标签云在知识管理中的应用。在基于社会标 

签的开放知识管理过程中,众多用户利用社会标签将 

个人知识以网络为平台进行广泛的交流、共享,融合 

行图书馆的宣传;可以对图书馆的资源建设提供帮 

助,根据用户添加标签的情况生成标签云,用户可以 

查找同一主题的资源、资源拥有者、资源位置及其评 

论,达到资源共享的目的。 

(3)标签云在图书馆信息组织中的应用。图书馆 

可以引进Folksonomy这个概念,推行Tag和Tag 

Cloud,允许用户在本馆网站上建立个人信息资源集, 

为馆藏资源添加标签,实现对馆藏资源的筛选、评比、 

推荐和评论,加强对馆藏资源的揭示和利用,以增值 

的内容吸引用户主动参与到图书馆的信息组织之中。 

(4)标签云在个性化推荐中的应用。在标签系统 

中,用户可以依据自己的需要和理解,自由选择词汇 

对资源进行标注。标签作为由用户产生的元数据,能 

够独特反映用户的需求及其变化,而且由标签所构建 

的“用户——资源——标签”之间的关系网络能够为 

个性化信息推荐提供有价值的基础数据。 

(5)标签云在学科导航中的应用。传统的学科导 

航栏在资源的有效组织、使用便捷性以及如何丰富信 

息资源内容等方面存在不足。标签云使得资源组织和 

使用变得很方便,通过使用不同的标签,可以把多主 

题的资源归到同一类目里,并且可以对新资源进行简 

单的描述,其他用户可以通过标签查找到所需的信 

息,提高检索效率。 

(6)资源揭示作用。标签是在对文章概括和理解 

基础上产生的,是基于对内容的个人理解上的私人标 

注,未必针对主题,可能是时间、内容或与文章主题 

无关的词汇,因此标签的设定要比关键词自由和方 

便,它可以从多个维度去揭示信息内容。 

2图书馆应用Tag的需求分析 

图书馆购买了很多数据库,包含期刊论文、学位 

37 

2O13年5月 

图书馆论坛 

Library Tribune 

May.2O13 

Vo1.33 NO.3 

第33卷第3期 

dbhelper.php、index.php、search.php。spider.php、 

cnki.php、dbhelper.php三个页面主要负责关键词的 

抓取、过滤和存储。index.php、search.php两个页面 

主要负责前台展示和搜索。 

(1)spider.php文件。主要定义抓取网页的类。 

class spider{//构造网页抓取的类 

function crawl(¥ur1){//抓取网页的地址 

¥content==””; 

¥f—fopen(¥url,”rb”);//fopen()函数打 

开文件或者URL。r表示只读方式打开,将文件指针 

指向文件头。使用“b”来强制使用二进制模式,这 

样就不会转换数据 。 

if(¥f){ 

while(!feof(¥f)){ 

¥content.===fread(¥f,8192);//fread()函数 

读取文件,读取8192字节时停止读取 。 

)} 

fclose(¥f); 

return¥content; 

}} 

(2)dbhelper.php文件。主要定义存取数据库的 

类。 

class dbhelper{//构建dbhelper类 

var¥db; 

var¥rs; 

function init(){ //调用mysqli的构造函数建 

立连接,同时选择使用数据库’test’ 

¥this一>db:@new mysqli(”127.0.0.1ll,” 

test”,”test”

”test”);//检查数据库连接 

if(mysqli

connect

errno()){ 

echo”数据库连接失败!<br>\n”; 

echo mysqli

connect

error(); 

exit;//退出程序,后面的所有语句将不再 

执行 

}} 

function query(¥sq1){¥this-->init(); 

¥t his一>rs一¥this一>db一>query 

(¥sq1); 

if(!¥this一>rs){ 

¥this一>dh一>close();//关闭数据库连接 

echo’数据记录插入失败!’; 

exit; 

j 

¥this一>db一>close(); 

} 

function querySize(¥table){ 

¥this-->query(’select*from’.¥table); 

return¥t his一>rs一>num

rows; 

_

function getRS(){ 

return¥this一>rs; 

}} 

(3)cnki.php文件。主要作用是遍历2008--2012 

年的期刊,遍历期数,确定每年每期的文章,然后解 

析每篇文章的结构,将题名、摘要、关键词、全文地 

址等信息存人数据库。主要代码如下: 

¥baseIDs—array(’ZGTS’一>’中国图书馆学 

报’,’QBLI ’一> 隋报理论与实践’,’TSQC’一>’ 

图书馆情报知识’,’TSQB’一>’图书馆情报工作’,’ 

QBKX’一> 隋报科学’,’XDTQ’一>’现代图书情 

报技术’,’TSSS’=>’图书馆学研究’,’TSGJ’一>’ 

图书馆建设’,’TNGZ’一>’图书馆杂志’,’TSGL’一 

>’图书馆论坛’,’TSGG’一>’图书馆工作与研究’, 

’TSGT’一>’图书馆’,);//baselDs存储的是期刊简 

码和名字的一个队列 

foreach(¥baselDs as¥key >¥value){//遍 

历定义的17个期刊的每一种 

for(¥year一2012;¥year>2007;¥year一 

){//遍历2008--2012年的期刊 

for(¥issue一1,¥b issue===true;¥b issue 

—true;¥issue++){ 

¥counter:1: 

pre—url:==http f| .cnki.net/kcms/ 

detail/detail.aspx?dbname—CIIFDTEMP&fi1ename 

: 

if(¥key一一一’QBLL’){ ¥pre

url= 

http:|| .cnki net/kcms/detail/detail.aspx? 

dbname=cjfdtotal&filename=’:) 

39 

2013年5月 

图书馆论坛 

Library Tribune 

May, 

2O13 

第33卷第3期 

Vo1.33 

No.3 

while(true){¥counter+一1;¥url一¥pre

— 

¥dbhelper一>query(’insert into t— 

tagarticle(ftag.f

articleid)values(’.’ ’’.¥tag. 

ur1.¥key.¥year.sprintf(’ 02d’,¥issue). 

sprintf(’ 03d’,¥counter); 

¥list===¥spider-- crawl(¥ur1); 

if(preg

_

’ ’

¥id.’)’);} 

//解析每篇文章的结构,获取有用信息,存入数 

据库。 

(4)index.php文件。从数据库中读取关键词, 

match(’/\bclass一”sorry”>/’, 

¥list)){ 

¥b issue—false;break; }//遍历 

按照字体大小以标签云展示出来。主要代码如下: 

include

期数,因为对每年的期刊数目不确定,所以尝试获取 

once(’dbhelper.php’);//连接数据库 

第一篇文章,如果获取不到,即找到了\bclass一” 

sorry”>,那么该循环遍历到头了。 

¥list—preg

replace(’/[\s\s]*?<div id 

”MapArea”>([\s\s]*?)<div id=”QK—nav”>fks 

kS]*/’,’¥{1}’,¥list); 

¥title:preg

replace(’/[ks\S]*?<span id 

chTitle”>(.*?)<[\s\S]*/’,’¥{1}’,¥list); 

if(preg

match(’/[\s\S]*?<span id一” 

ChDivSummary”[\s\S]*?>(-\S\s]*?)<‘span> ̄\s\ 

s]*/’,¥list)){ 

¥abstract=preg—replace(’/[\sXS]*?<span 

id=”ChDivSummary”[\s\S]*?>([\s\S]*?)<‘span 

>[\s\s]*/’,’¥{1}’,¥list);}//遍历确定年、期 

的期刊 

else{ 

¥abstract一’No abstract is found…’;) 

¥id一¥dbhelper一>querySize(’t— 

article’)+1: 

¥dbhelper-- ̄query( insert into t—article(f—id,f 

title,f

abstract,f

source,fyear,f

issue,f

ur1) 

values(’ 

¥id.’,’’.¥title.’’,’’.¥abstract.’’,’’. 

¥source.,,,’. ¥year.’,’’. ¥issue.’’,’’. 

¥ur1.”)’); 

¥list=preg

replace(’/[\sXS]*?<span id 

”ChDivKeyWord”([\s\s]*?)<‘span ̄[\s\S] 

*/’,’¥{1}’,¥list); 

¥list=preg—replace(’/EksXS]*Y<a.*?>(. 

*?) ̄X/a>/’, , ¥(1}\’\’\’’,¥list); 

¥tags—explode(’\’\’\”,¥list,--1); 

foreach(¥tags as¥tag){ 

40 

¥dbhelper—new dbhelper(); 

¥dbhelper-- ̄query(’select f—tag,count(*)as 

amount from ttagarticle group by ftag order by count 

_

(*)desc limit 0,100’); 

¥rs一¥dbhelper-- ̄getRS();//从数据库读取 

标签,生成记录集 

function utf8

array_asort(&¥array){ 

if(!isset(¥array)f f!is

array(¥array)){ 

return false; 

foreach(¥array as¥k===>¥v){ 

¥array[¥k]一iconv(’UTF一8’,’GBK// 

IGNORE’,¥v); 

) 

asort(¥array); 

foreach(¥array as¥k一>¥v){ 

¥array[¥k]一iconv(’GBK’,’UTF一8// 

IGNORE’,¥v); 

} 

return true; 

……

//各种排序方式函数,包括顺序、倒序、 

数量等排序。队列里的数据是utf8格式的,需要编码 

转换为gbk格式,以便排序,排序后再转回utf8格式。 

¥sortFuncs—array( 

’alpha’一>’utf8

array—myksort’, 

’revAlpha’一>’utf8

array_mykrsort’, 

’amountAsc’一>’asort’, 

’amountDesc’=>’arsort’ 

): 

2013年5月 

图书馆论坛 

Library Tribune 

May,2013 

第33卷第3期 

V01.33 No.3 

(41夏秀峰,张姝,李晓明.一种个性化标签云中的标签排序 

算法,J].沈阳航空航天大学学报,2011(1):46—50. 

(53[13]周雷,强巴旦增.略论知识组织的几种方法—— 

Organizacion del Conocimiento,2010,16(1):15— 

33. 

[¨]Sinclair,James;CardewHall,Michae1.The folksonomy 

tag cloud:when is it useful?[J].Joumal of Information 

Science,2008,34(1):15—29. 

之民俗分类法和标签云[J].西藏科技,2012(7): 

19—21. 

L63沈奎林.基于定量分析的复合图书馆研究[J].图书 

馆,2012(1):66—68,95. 

[7]Trattner,Christoph.Improving the Navigability of 

Tagging Systems with Hierarchically Constructed 

<121 Louise F Spiteri.The Structure and Form of Folksonomy 

Tags:The Road tO the Public Library Catalog[J]. 

Information Fechnology and Libraries,2007,(9):13—25. 

[14]中文社会科学引文索引(2012—2013)来源期刊目录 

<EB/OI ].[2012 09—19].http://cssci.nju.edu.cn/ 

news

Resource Lists and Tag Trails[J].CIT—Journal of 

Computing and Information Technology,2012,19 

(3):155 167. 

show,asp?Articleid一490. 

[15]PHP fopen()函数[口3/()I ].<2012—09-20].http:// 

lesystemfopen. 

www.w3schoo1.com.cn/php/func

fi

[8]Gao,Qin.An Empirical Study of Tagging for Personal 

Information Organization:Performance,Workload, 

asp. 

Memory,and Consistency[J].International Journal of 

Human-Computer Interaction,2011,27(9):821 863. 

[16]PHP fread()函数<EB/()I ].(2012 09 20].http:// 

Ⅵ 

ilesystem freack asp. 

w3schoo1.corn.cn/php/func

[9]Clements,M;de Vries,A.P.;Reinders,M.J. 

T.The Influence of Personalization on Tag Query 

Length in Social Media Search[J]. Information 

Processing and Management,2010,46(4):403—412. 

[17]Flickr[EB/OL].(2012~09—20].http://Ⅵ lfickr.corn. 

delicious. [18]Delicious[口 ()I .<2012—09—201.http://w 

corn, 

[19]Connotea[口3/()L].(2012-09—20].http:/ Ⅵww connote& 

corn, 

[10]Hassan-Montero, Yusef;Herrero—Solana, Victor; 

Guerrero—Bore,Vicente.Tag—Clouds Usability:Eye- 

[2O]CiteULike[EB/()L].[2Ol2_O9—20).http://w 

org. 

citeulik< 

Tracking Study [J]. SCIRE: Representacion y 

The Research and Application of Tag Cloud in Academic Resources Reveals 

1 ng the Keywords of Core Journals in Library and Information Included in CNKI for Example 

SHEN Kui—lin,SHAO Bo。LU Ming 

(Nanjing University Library,Nanjing 210093,China) 

Abstract:As the web2.0 technology becoming more and more popular in intemet products,the library tries to use it tO 

improve the quality of library service.The article introduces the concept and the basic application of Tag,illustrates how tO 

extract the keywords from bibliographic database and display the result in tag cloud,SO as to provide a new way for information 

retrieval and navigation.Using the core journals in Library and Information from CNKI as the source,the authors demonstrate 

its implementation approach and its application. 

Keywords:TagCloud;tag;academic resources;CNKI;database;library 

(作者简介]沈奎林(1973 ),男,硕士,馆员,南京大学图书馆数字图书馆建设部副主任;邵波 

(1966一),男,博士,南京大学信息管理学院教授,南京大学图书馆副馆长;卢明(1988一),男,硕士,南 

京大学图书馆助理馆员。 

[收稿日期]2012—11—05 

42 


本文标签: 标签 资源 用户 图书馆