C# - Fuzzy compare of two large string arrays(C# - 两个大字符串数组的模糊比较)
问题描述
我需要找到 B 中部分"存在于 A 中的所有字符串.
I need to find all strings in B that "partly" exists in A.
B = [ "Hello World!", "Hello Stack Overflow!", "Foo Bar!", "Food is nice...", "Hej" ]
A = [ "World", "Foo" ]
C = B.FuzzyCompare(A) // C = [ "Hello World!", "Foo Bar!", "Food is nice..." ]
我一直在研究将 Levenshtein 距离算法用于模糊"问题的一部分,以及迭代的 LINQ.但是,A * B 通常会导致超过 15 亿次比较.
I've been looking into using Levenshtein Distance Algorithm for the "fuzzy" part of the problem, as well as LINQ for the iterations.
However, A * B usually results in over 1,5 billion comparisons.
我应该怎么做?有没有办法快速几乎比较"两个字符串列表?
How should i go about this? Is there a way to quickly "almost compare" two Lists of strings?
推荐答案
也许只比较子串就足够了,这样效率会高很多:
Maybe it's sufficient to simply compare substrings, this would be much more efficient:
var C = B.Where(s1 => A.Any(s2 => s1.IndexOf(s2, StringComparison.OrdinalIgnoreCase) >= 0)).ToList();
这篇关于C# - 两个大字符串数组的模糊比较的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:C# - 两个大字符串数组的模糊比较
基础教程推荐
- 经典 Asp 中的 ResolveUrl/Url.Content 等效项 2022-01-01
- 是否可以在 asp classic 和 asp.net 之间共享会话状态 2022-01-01
- JSON.NET 中基于属性的类型解析 2022-01-01
- 如何动态获取文本框中datagridview列的总和 2022-01-01
- 从 VS 2017 .NET Core 项目的发布目录中排除文件 2022-01-01
- 首先创建代码,多对多,关联表中的附加字段 2022-01-01
- 将事件 TextChanged 分配给表单中的所有文本框 2022-01-01
- 全局 ASAX - 获取服务器名称 2022-01-01
- 错误“此流不支持搜索操作"在 C# 中 2022-01-01
- 在 VS2010 中的 Post Build 事件中将 bin 文件复制到物 2022-01-01
