一可软件 一可软件 Outils par lots
Français

文档词频权重统计工具

批量分析文本文档的词频分布,支持TF-IDF和BM25权重计算

Consultez les informations et actions de l’outil. Consultez les articles et catégories.


点击选择文件或拖拽TXT文件到此处

支持 TXT 格式的文本文件

文件不会上传到服务器,所有操作都在您的设备本地完成。
过滤掉长度小于此值的词汇
显示排名前N的关键词
自动过滤常见的停用词(的、了、在等)
自动过滤标点符号和特殊字符

Cet élément est affiché dans la langue actuelle.

使用说明

  1. 选择文件:点击选择按钮或直接拖拽TXT文本文件到上传区域
  2. 选择分析方法:
    • 词频统计:统计每个词汇出现的次数(默认选项)
    • TF-IDF权重:计算词汇的重要性权重
    • BM25权重:使用BM25算法计算相关性得分
  3. 设置参数:
    • 较小词长:过滤掉长度过短的词汇
    • 显示数量:设置结果中显示的关键词数量
    • 过滤选项:选择是否过滤停用词和标点符号
  4. 开始分析:点击"开始分析"按钮进行文本处理
  5. 查看结果:在结果表格中查看词频统计和权重计算结果
  6. 下载结果:点击下载按钮获取CSV格式的分析报告

常见问题

TF-IDF(词频-逆文档频率)是一种用于信息检索与数据挖掘的常用加权技术。它能够评估一个词对于一个文档集或语料库中某份文档的重要程度,数值越高表示该词越重要。

BM25是一种排序函数,用于评估查询词与文档的相关性。它是TF-IDF的改进版本,考虑了文档长度的影响,在信息检索领域被广泛应用,是搜索引擎的核心算法之一。

停用词是指在文本中频繁出现但对文本主题贡献较少的词汇,如"的"、"了"、"在"等。过滤停用词可以提高分析质量,突出真正有意义的关键词。

较小词长用于过滤过短的词汇。对于中文文本,建议设置为2,可以过滤掉单字词;对于英文文本,建议设置为3-4,可以过滤掉过短的单词。

词频表示词汇出现的次数;TF-IDF值越高表示该词在当前文档中越重要;BM25得分越高表示该词与查询的相关性越强。可以根据这些指标识别文档的关键主题。

目前仅支持TXT格式的纯文本文件。如果您有Word、PDF等格式的文档,请先将其转换为TXT格式再进行分析。

理论上没有数量限制,但受限于设备内存和性能。建议单次处理不超过100个文件,每个文件大小不超过10MB,以确保理想分析效果和稳定性。