您好,欢迎来到百家汽车网。
搜索
您的当前位置:首页文献中词频分布规律的研究

文献中词频分布规律的研究

来源:百家汽车网
第卷年第月期3。3扭3,情报学报June1994文献中词频分布规律的研究王庆林北京理工大学自控系,刘100081文,郑州大学图书馆450052)摘If本文首先对ZP定律与Boto要,h定律之间的联系与差别进行了仔细地讨论接着给出了一个描述词频分布的新公式相一致,。,新公式在较高频段同ZIPf定律棺一致。而在低频段同Booth定律是一个描述词频分布规律的更一般公式文献计量学中过讨论等的。,IfP定律始终是人们研究的重点之一有关词频分布规律的Z。本文首先通,,t定律的差别不仅仅是各自所适用的词频范围不同说明了Zipf定律与Boh。而且它。们所研究的具体变量也不相同算与分析结果表明出Booth定律,,因而是两个相互联系而又相互区别的定律,,它们的关系是平接着在大量计量与分析的基础上给出了一个描述文献中词频分布规律的新公式pf定律完全一致。计新公式在高词频部分同iZ,而在低词频部分又可直接导因而是一个描述词频分布规律的更一般的公式本文中的计算是以《英汉读报常用词典》(文献(6))中提供的依据的词,。“单词频度分级表,”为行6〕中的文献〔“单词频度分级表”是通过对,300000个语法3单位(超过了6级1Zipf进2〕)进行统计分析后给出的单词频度共分研究所用的260000词词集〔4个不同单含1611是进行英语词频分布研究的极好素材。1iZpf定律,Booth定律及其联系与区别111一4〕ZIPf定律〔设有一总词量(Wo(W。rd一ytpesrd:)为T(T应充分大)的文件体(Txet),其有D个不同的词,)。若将这D个不同的词在文件体中出现的频次统计出来并按照由高到低的,顺序将出现频次排列起来。,然后用自然数顺序从,,二11,(对应最高频次)至L(对应最低频次)依L),次给每个频次编上词频等级序号,((;2,…同时将对应于等级序号r的频次记为=l,2,…。,󰀀,L):则Zipf定律为。=。(为常数)(r=王,2,…,L)(1)收稿日期:19930日牛8月1一217—即在一充分大的文件体中实际应用中将式(,,任一单词出现的频次与其词频等级序号的乘积为一常数r,。,对不同的值n,。r~,n,󰀀r在一固定的常数附近波动。1)的两端同除以总词量T,󰀀有,/T~。/T。`若令尸r一。:/T为序号为的词的相对出现频率=。/T,则有(,Pr󰀀r=e`(r=l,,2,…,L)2)值得注意的是因此一般L07之后,󰀀随着󰀀,的减小。r对应增加),,同频词的数目不断增加7)>r,因而有:

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baijiahaobaidu.com 版权所有 湘ICP备2023023988号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务