如何在线删除文本中的重复行？

将文本粘贴到行排序工具中，启用删除重复项选项，然后点击处理。该工具保留每行的第一次出现，并立即删除所有后续重复项。

可以不区分大小写地排序行吗？

可以。处理前取消勾选区分大小写选项。这使得apple和Apple在排序和去重目的上被视为相同。

逆向排序和逆序有什么区别？

逆向排序（Z到A）按字母降序排列。逆序翻转当前序列，使最后一行变为第一行。除非输入已经排好序，否则它们产生不同的结果。

行排序工具支持中文等非英语文本吗？

支持。该工具使用localeCompare进行排序，能正确处理中文、日文、韩文、阿拉伯文和带重音字符的欧洲语言等大多数语言。

在线排序和去重文本行（无需Excel或脚本）

开发者和数据处理人员一直面对一种特定的繁琐：有一个列表——域名、用户名、标签、URL、错误信息——需要排序，或者需要去掉重复项，或者两者都要。听起来很简单。确实很简单。但是打开Excel，或者写一个快速的Python脚本，或者记住bash中确切的sort | uniq咒语所产生的摩擦，就足以拖慢你的速度。

我在这类任务上浪费的时间比我愿意承认的要多。不是以小时计，而是那些烦人的两分钟中断，会打断你的工作流程。这就是行排序工具的用途——粘贴列表，排序，清理，复制，继续前进。

常见情况

让我梳理一下这类工具实际节省时间的场景。

对URL或域名列表去重

你在编制要屏蔽的域名列表，或重定向规则列表，或内容安全策略的白名单。你从不同来源粘贴URL，最终得到重复项。你可以：

打开Excel，粘贴，使用删除重复项功能
在终端中写sort -u list.txt > sorted.txt
使用awk或Python

或者你可以把它粘贴到行排序器中，勾选"删除重复项"，10秒内搞定。

如果你已经在终端了，终端方式说实话更简洁。但当你在做其他事情——写文档、填写表单、在浏览器中工作——切换到终端执行单行命令的开销比看起来要大得多。

按字母顺序排列标签列表或关键词

SEO关键词。数据库列名。环境变量名。配置键。这些列表按字母顺序读起来更好，但当你第一次写它们时很少是按字母顺序的。

手动按字母顺序排列5个项目可以。到15个项目时你的眼睛开始跳过。到50个项目时你需要一个工具。

随机排序（洗牌）

有时候你想要与排序相反的效果——你需要随机化一个列表。随机排序的测试数据、随机化的调查问题、作为文本导出的随机播放列表。洗牌选项可以处理这个问题。

不排序地反转

如果你有一个旧条目在前面的变更日志，你可能想要将最新的放在前面显示。逆序（不是逆字母顺序——只是翻转序列）与反向排序不同。两种操作都可以使用。

实际上重要的选项

行排序器有一些值得理解的选项：

区分大小写：关闭大小写敏感（默认），"苹果"和"APPLE"会排在一起，并计为重复项。开启时，它们被视为不同值。对于编程用例——环境变量名、命令名——通常需要区分大小写。对于名称或地点等人类文本，不区分大小写通常更好。

删除重复项：与其他操作结合使用。如果你同时排序和删除重复项，你会得到一个干净的、去重的、按字母顺序的列表。

删除空行：从文档中粘贴内容时，经常会散落一些空行。这个选项可以去除它们。

修剪空白：每行头尾的空格。从电子表格或PDF复制时会无形中出现的那种。"苹果 "和"苹果"不是同一个字符串——但开启修剪后它们就变成一样的，所以重复项会被正确捕获。

真实工作流：清理数据库迁移清单

以下是我实际使用过的具体工作流。我们有一个数据库迁移清单，多人随时间维护。项目被添加和重新添加，有些有稍微不同的空白或大小写。列表已经增长到200多个项目。

清理它：

将整个列表复制到剪贴板
粘贴到行排序器
启用：修剪空白、删除空行、删除重复项
按A到Z排序（使得更容易用眼睛发现近似重复项）
复制结果

排序后去重的输出减少到140个项目。近似重复项——"迁移用户表"vs"迁移Users表"——仍然需要人眼，但明显的完全相同的重复项已经消失了。

去重后，我通过文本差异工具对比排序列表与之前的版本，确保没有合法内容被删除。这个两工具工作流总共用了大约五分钟。

什么时候应该使用终端

说实话：如果你习惯终端，sort -u filename.txt处理文件更快。如果你是以编程方式处理作为脚本的一部分，肯定在代码中处理。

在线工具更好用的时候：

你已经在浏览器环境中
你在处理剪贴板中的文本，而不是文件
你想一次应用多个选项（排序+去重+修剪），而不需要链接命令
做这件事的人不是开发者

最后一点很重要。不是每个需要对列表去重的人都知道如何打开终端。内容管理员、营销人员、项目经理——他们有同样的需求，值得一个不需要知道awk '{!seen[$0]++} !seen[$0]'是做什么的工具。

多语言排序

一个容易被忽略的点：排序非英语文本与排序ASCII文本不同。

bash中的sort对UTF-8处理得还不错，但你需要正确设置locale（LC_ALL=zh_CN.UTF-8 sort或类似的）。带重音的字母（é、ü、ñ）根据locale以不同的顺序排序。韩语、日语和中文有完全不同的排序规则——韩语谚文按语音顺序排序，而不是按Unicode码位。

行排序器使用JavaScript的localeCompare()方法进行排序，这尊重浏览器的locale设置。这意味着中文列表会按中文正确排序，德语变音符会相对于其基本元音排在正确的位置，等等。

不是完美的——locale感知排序是一个深层问题——但对于真实的多语言内容，比朴素的字符代码排序要好得多。

它不能做什么

设定期望：

不会模糊匹配重复项。如果你有"北京"和"beijing"且关闭了大小写敏感，这些不匹配。对于模糊去重，你需要更复杂的东西。

不会对列排序。这是行级工具。如果你有逗号分隔的值且想按第二列排序，你需要CSV工具或电子表格。

不会计数出现次数或按值分组。对于更丰富的文本分析，请查看字词计数器。

隐私

所有内容都在你的浏览器中运行。你的文本永远不会发送到服务器。当你去重的列表包含电子邮件、内部域名、客户数据或任何其他敏感内容时，这一点很重要。

融入你的工作流

一些实用说明：

键盘驱动的使用：如果你是键盘使用者，流程是：输入框Ctrl+A全选，Ctrl+V粘贴，用Tab和Space调整选项，然后点击处理。输出有复制按钮。

大输入：该工具对典型大小的大输入处理良好——数百或数千行。对于真正的巨大输入（数百万行），命令行工具会更快。

往返使用：将一个操作的输出作为另一个操作的输入是没问题的。排序，复制，再粘贴回来，应用不同选项，重复。工具在操作之间没有记忆。

总结

行排序器听起来几乎太简单而不需要自己的工具。但"太简单而不需要工具"往往是摩擦最无形地积累的类别。你每天做二十次的五秒钟任务。

在这里排序、去重和清理你的文本列表。无需设置，无需注册，不必担心粘贴到随机服务器的问题。

如果你在处理更结构化的内容，文本差异工具适合比较修改前后的列表版本。字词计数器如果你需要的不仅仅是排序输出，还能给出你文本的统计信息。