一可软件 一可软件 Công cụ hàng loạt
Tiếng Việt

文章抄袭检测工具

VIP

专业的在线文本相似度检测工具,支持多种算法检测文本重复率和相似度。

Kiểm tra thông tin và thao tác công cụ. Kiểm tra bài viết và danh mục.

智能文本相似度检测器

基于多种AI算法的专业文本相似度分析工具

余弦相似度 Jaccard系数 最长公共子序列 N-gram匹配 编辑距离 语义相似度
📄 拖拽文件到此处上传
📄 拖拽文件到此处上传

🔧 检测参数设置

正在进行文本相似度分析...

Mục này đang hiển thị bằng ngôn ngữ hiện tại.

软件使用说明

  1. 输入文本内容:在左侧"原始文本"框中输入参考文本,在右侧"对比文本"框中输入待检测文本。也可以通过点击"选择文件上传"按钮上传txt格式的文本文件。
  2. 选择检测算法:在参数设置面板中选择需要使用的相似度检测算法:
    • 余弦相似度:基于向量空间模型的相似度计算
    • Jaccard系数:集合交并比的相似度度量
    • 最长公共子序列:动态规划算法计算序列相似性
    • N-gram匹配:基于字符/词汇片段的匹配算法
    • 编辑距离:字符串编辑操作的距离度量
    • 语义相似度:基于词向量的语义理解算法
  3. 调整检测参数:
    • 相似度阈值:设置相似度判定的百分比阈值(0-100%)
    • N-gram长度:设置N-gram算法的字符片段长度
    • 最小匹配长度:设置最小匹配字符数
    • 忽略选项:选择是否忽略标点符号和大小写
    • 语言模式:选择中文、英文或中英混合模式
  4. 批量文件处理:支持同时上传多个txt文件进行批量检测,界面显示前20个文件,但会处理所有上传的文件。
  5. 开始检测:点击"开始检测"按钮,系统将使用选定的算法对文本进行相似度分析。
  6. 查看结果:检测完成后查看详细的相似度报告,包括各算法的检测结果和可视化图表。
  7. 导出结果:点击"导出结果"按钮,将检测报告和原始数据打包下载为ZIP文件。

常见问题

答:每种算法的计算原理不同,余弦相似度关注词频分布,Jaccard系数关注词汇重合度,LCS算法关注字符序列,N-gram关注片段匹配,编辑距离关注字符修改成本,语义相似度关注语义理解。建议综合多种算法结果进行判断。

答:阈值设置建议:70%以上表示高度相似,50-70%表示中等相似,30-50%表示低度相似,30%以下表示基本不相似。学术检测建议设置60-70%,内容原创性检测建议设置40-50%。

答:N-gram长度影响检测精度:长度2-3适合检测字符级相似性,长度4-5适合检测词汇级相似性,长度6-8适合检测短语级相似性。中文文本建议使用3-4,英文文本建议使用4-5。

答:不会。所有文本相似度检测都在您的设备本地完成,文本内容和文件都不会上传到服务器,完全保护您的数据隐私和安全。

答:目前支持TXT格式的纯文本文件。建议将Word、PDF等格式的文档先转换为TXT格式,或直接复制文本内容到输入框中进行检测。

答:文本相似度检测需要消耗计算资源。建议:1)减少同时使用的算法数量;2)将长文本分段检测;3)单次检测文本长度控制在10万字符以内;4)关闭其他占用内存的程序。

答:导出的ZIP文件包含:相似度检测报告.txt(人类可读的详细报告)和检测数据.json(机器可读的结构化数据)。报告包含各算法的相似度百分比、平均值、详细描述等信息。