一可软件
バッチツール
検索
記事
ログイン
登録
日本語
简体中文
zh-CN
English
en
日本語
ja
한국어
ko
Español
es
Français
fr
Deutsch
de
Português
pt
Русский
ru
العربية
ar
Italiano
it
Nederlands
nl
Polski
pl
Türkçe
tr
हिन्दी
hi
Bahasa Indonesia
id
Tiếng Việt
vi
ไทย
th
Bahasa Melayu
ms
Svenska
sv
☰
この項目は現在の言語で表示されています。
/
ツール情報と操作を確認してください。
文本文件名相似度筛选工具
根据文件名相似度对TXT/HTML文件分组,并依据字数、句子数等内容指标自动保留每组中的理想文件,实现高效去重。
ツール情報と操作を確認してください。
記事とカテゴリ情報を確認してください。
文本文件名相似度筛选
步骤一:选择文件
选择所有需要比较的TXT或HTML文件。文件处理在您的浏览器中进行,不会上传到服务器。
已选择文件列表 (预览前20个):
第二步:设置文件名相似度阈值 (%)
50
%
文件名相似度高于此值的文件将被归为一组进行比较。
第三步:选择保留文件的标准
纯文本字符数较多
分词后词数较多
句子数量较多
平均句长较长
数字字数占比较高
在相似的文件组中,符合此标准的那个文件将被保留。
开始筛选
处理进度
0%
筛选结果
筛选完成!已将优选文件打包,您可以点击下方按钮下载。
下载保留文件 (ZIP)
被筛选掉的文件列表: