段落句子统计工具
统计文本段落、句子、词数与字符,支持批量与多格式
Проверьте сведения и действия инструмента.
Проверьте статьи и категории.
Этот элемент отображается на текущем языке.
软件使用说明
- 选择输入方式:在“直接输入”与“上传文件”两种模式间切换。单文本实时统计,批量文件将统一处理。
- 粘贴或选择文件:
- 单文本模式:在输入框中直接输入或粘贴文本,结果自动更新。
- 批量模式:选择TXT、MD、DOCX、PDF文件。界面仅显示前20个,其余不再展示,但会全部处理。
- 设置统计规则:
- 段落分割:空行分割(推荐)/每行一个段落/首行缩进识别;可设较小段落长度、忽略空段、合并软换行。
- 句子分割:支持中文(。!?;……)与英文(.!?)句末;可保护英文缩写与小数点;可设较小句长、忽略空句。
- 预处理:统一换行、折叠多空白、去首尾空白、移除HTML标签、忽略括号内内容、统计时忽略标点。
- 词数模式:按空白分词(英文)或按汉字计词;支持导出格式与文件命名模板。
- 开始处理:
- 单文本模式:无需按钮,实时展示统计结果,可点击“导出当前文本统计”。
- 批量模式:点击“开始处理”,依进度条处理所有文件,并生成汇总与每文件结果。
- 下载结果:批量模式处理完成后,点击“下载全部结果(ZIP)”,内含summary.csv、results.json及每文件TXT统计报告。
常见问题
答:空行分割按空白行划分自然段;每行一个段落适合表格/清单;首行缩进识别遇到全角空格、制表符或两空格时作为新段起始,适合排版良好的文本。
答:勾选“保护英文缩写不分句”与“保护小数点不分句”,即可在识别句末时跳过常见缩写与数字小数点。
答:为保证界面流畅,仅展示前20个作预览。实际会处理全部已选择的文件,终结果会完整打包在ZIP中。
答:支持TXT、MD、DOCX、PDF。DOCX通过文本抽取,PDF通过文本层抽取,少量复杂排版的文件可能抽取不完整。
答:可以。词数可选“按空白分词”或“按汉字计词”;字符可选择是否忽略标点。还可搭配文本预处理选项影响统计结果。
答:包含汇总表summary.csv、JSON格式的results.json,以及每个文件对应的TXT统计详情,文件名可使用命名模板。
答:PDF文本层受排版/嵌入字体/扫描件等影响。若是图片扫描件,建议先进行OCR识别后再统计。
答:建议分批处理,减少并发任务,同时关闭占用资源较多的程序,或先统一清洗文本后再统计。