一可软件 一可软件 Strumenti batch
Italiano

文章抄袭检测工具

VIP

专业的在线文本相似度检测工具,支持多种算法检测文本重复率和相似度。

Runs in the browser Legacy online tools are embedded on this page. Most image, text, PDF, and small-file operations stay in your browser.

智能文本相似度检测器

基于多种AI算法的专业文本相似度分析工具

余弦相似度 Jaccard系数 最长公共子序列 N-gram匹配 编辑距离 语义相似度
📄 拖拽文件到此处上传
📄 拖拽文件到此处上传

🔧 检测参数设置

正在进行文本相似度分析...

Instructions

软件使用说明

  1. 输入文本内容:在左侧"原始文本"框中输入参考文本,在右侧"对比文本"框中输入待检测文本。也可以通过点击"选择文件上传"按钮上传txt格式的文本文件。
  2. 选择检测算法:在参数设置面板中选择需要使用的相似度检测算法:
    • 余弦相似度:基于向量空间模型的相似度计算
    • Jaccard系数:集合交并比的相似度度量
    • 最长公共子序列:动态规划算法计算序列相似性
    • N-gram匹配:基于字符/词汇片段的匹配算法
    • 编辑距离:字符串编辑操作的距离度量
    • 语义相似度:基于词向量的语义理解算法
  3. 调整检测参数:
    • 相似度阈值:设置相似度判定的百分比阈值(0-100%)
    • N-gram长度:设置N-gram算法的字符片段长度
    • 最小匹配长度:设置最小匹配字符数
    • 忽略选项:选择是否忽略标点符号和大小写
    • 语言模式:选择中文、英文或中英混合模式
  4. 批量文件处理:支持同时上传多个txt文件进行批量检测,界面显示前20个文件,但会处理所有上传的文件。
  5. 开始检测:点击"开始检测"按钮,系统将使用选定的算法对文本进行相似度分析。
  6. 查看结果:检测完成后查看详细的相似度报告,包括各算法的检测结果和可视化图表。
  7. 导出结果:点击"导出结果"按钮,将检测报告和原始数据打包下载为ZIP文件。

常见问题

答:每种算法的计算原理不同,余弦相似度关注词频分布,Jaccard系数关注词汇重合度,LCS算法关注字符序列,N-gram关注片段匹配,编辑距离关注字符修改成本,语义相似度关注语义理解。建议综合多种算法结果进行判断。

答:阈值设置建议:70%以上表示高度相似,50-70%表示中等相似,30-50%表示低度相似,30%以下表示基本不相似。学术检测建议设置60-70%,内容原创性检测建议设置40-50%。

答:N-gram长度影响检测精度:长度2-3适合检测字符级相似性,长度4-5适合检测词汇级相似性,长度6-8适合检测短语级相似性。中文文本建议使用3-4,英文文本建议使用4-5。

答:不会。所有文本相似度检测都在您的设备本地完成,文本内容和文件都不会上传到服务器,完全保护您的数据隐私和安全。

答:目前支持TXT格式的纯文本文件。建议将Word、PDF等格式的文档先转换为TXT格式,或直接复制文本内容到输入框中进行检测。

答:文本相似度检测需要消耗计算资源。建议:1)减少同时使用的算法数量;2)将长文本分段检测;3)单次检测文本长度控制在10万字符以内;4)关闭其他占用内存的程序。

答:导出的ZIP文件包含:相似度检测报告.txt(人类可读的详细报告)和检测数据.json(机器可读的结构化数据)。报告包含各算法的相似度百分比、平均值、详细描述等信息。