V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  xy629  ›  全部回复第 1 页 / 共 2 页
回复总数  35
1  2  
你面临的问题是处理两个非常大的数据集,并且需要找出它们之间的差异。这里有几个关键点需要考虑:

数据集过大,无法一次性加载到内存。
数据是无序的。
你需要比较两个数据集并找出存在于一个数据集而不在另一个中的元素,以及两个数据集中存在差异的元素。
你目前的方法是将数据分成多个小块(每块 10 条记录),然后使用类似哈希表的结构来进行比较。这种方法是可行的,但是效率较低,因为你需要多次读取和比较数据。

为了改进这一过程,可以考虑以下几种算法或方法:

1. 外部排序和合并
考虑到数据量大且无序,可以使用外部排序算法先对两个文件分别进行排序,然后再进行比较。外部排序是一种用于处理大量数据的排序算法,它会将数据分成多个块,分别排序后再合并。排序可以基于主键(这里是 Name )。排序后,你可以逐个比较两个文件的记录,以找到差异。

2. MapReduce
如果你有权限使用像 Hadoop 这样的分布式处理系统,MapReduce 可能是一个好方法。MapReduce 能够处理大量数据,通过将任务分发到多个节点来并行处理,从而提高效率。在 MapReduce 中,你可以在 Map 阶段读取和标记来自两个不同文件的数据,在 Reduce 阶段进行聚合和比较。

3. 数据库导入和查询
鉴于数据源来自 Oracle 和 PostgreSQL ,另一个方法是将这些数据导入一个数据库,然后使用 SQL 查询来找出差异。数据库对于处理大量数据以及提供高效的查询和比较操作非常有效。你可以使用 JOIN 查询或者 EXCEPT 查询来找出差异。

4. 流处理
如果你能流式地处理数据(逐行读取而不是分块),可以在读取的同时进行比较。这可以通过使用类似哈希表的结构来实现,但是需要对内存管理进行更精细的控制。

关键词和概念
外部排序:处理无法全部放入内存的大数据集的排序方法。
MapReduce:一种分布式数据处理模型,适用于大规模数据集的处理。
数据库操作:使用 SQL 和数据库管理系统进行高效的数据查询和比较。
流处理:实时处理数据流的方法,适用于连续的数据输入。
根据你的资源和环境,可以选择最适合你情况的方法。如果你正在使用的环境(如特定的编程语言或框架)有限制,请告诉我,这样我可以提供更具体的建议。 -- from chatGPT
默哀一秒钟, 为这个时代
小孩子的世界里, 价格和成本有关; 大人的世界里价格和需求有关 : )
2023-12-10 20:16:05 +08:00
回复了 Funian 创建的主题  WATCH 直接开喷了, Apple Watch Ultra 2 真辣鸡
我稍微对案情做一个梳理: 楼主是男性(在他过往一篇强迫症帖子自己说的), 本帖中提到的室友是女性(如果"她"不是打错了的话), 平常也会有告诉同事锁屏密码这个习惯(过往帖子自己说的).

所以楼主的"室友"大概率也是知道他手机锁屏密码的, 至少很可能曾经某段时间知道过.

那么现在的情况很可能就是, 室友把玩了 watch, 并且试图用曾经知道的密码来解锁手表, 但是可能是密码被改的原因, 失败了.

但为什么室友对楼主撒了谎, 说自己没有动手表?

合理的猜测是, 楼主和这个"室友"并非普通室友那么简单, 中间或后来可能发生了一些故事和误解 : )
2023-12-10 16:03:26 +08:00
回复了 Funian 创建的主题  WATCH 直接开喷了, Apple Watch Ultra 2 真辣鸡
本来是个引战贴, 看完楼上评论, 直接变成悬疑贴了.
楼主你还是先回忆一下昨晚都发生过什么
2023-11-06 01:09:12 +08:00
回复了 kado 创建的主题 Apple A17 Pro 和 M3 不支持 ARMv9 会影响未来软件的兼容性吗?
@V28a19cc GPT4 回答的很不错
2023-10-30 18:36:07 +08:00
回复了 momo2023 创建的主题 iPad 新买了个 iPad air,想问有哪些应用搭配可使平板成为生产力?
搭配泡面桶可以提高生产力
2023-09-24 18:41:33 +08:00
回复了 Bananana 创建的主题 Apple 这 action button 为啥不放到音量键下面
@terence4444 没错 是母公司下方的技术
2023-08-17 21:23:49 +08:00
回复了 lhyyds6 创建的主题 职场话题 给个建议吧
多年以后 你猛然回头, 被如今选择的板机所发出的子弹 正中眉心.
2023-07-07 07:43:30 +08:00
回复了 xy629 创建的主题 宽带症候群 刚办好了带宽, 下行 1Gbps 上行 1Gbps, 每个月 45 镑
@SuzutsukiKaede 我是老用户和狗, 你这个价位牛逼了. 好奇你是哪里点进去这个页面的, 我在它家主页面找半天找不到
2023-07-06 23:09:41 +08:00
回复了 xy629 创建的主题 宽带症候群 刚办好了带宽, 下行 1Gbps 上行 1Gbps, 每个月 45 镑
@YsHaNg hyperoptic
2023-07-04 18:03:13 +08:00
回复了 zhouts 创建的主题 随想 我还没表白就黄了
破案了, 看时间线, 应该是《消失的她》拆散了二位.
2023-06-25 00:28:05 +08:00
回复了 make1money 创建的主题 分享发现 你认为买的最值的付费软件或者订阅软件?
@tsja 是不是还缺个抓手, 然后再整体打通?
2023-06-06 07:13:18 +08:00
回复了 zhangsimon 创建的主题 Apple Apple Vision Pro 讨论贴
@sizhengping 去学习一下在投资领域 利好出尽这个概念吧.
@martin19980418 谢谢老哥详细的介绍, 不过装机小白感觉 hold 不住二手双路服务器
2023-05-26 02:02:38 +08:00
回复了 zhengyue08 创建的主题 Apple 求一个美区 Apple One Family 的车
@zhengyue08 还有一个车位, 月付 38, 我加你微信或者邮件
2023-05-25 20:24:37 +08:00
回复了 zhengyue08 创建的主题 Apple 求一个美区 Apple One Family 的车
来不及解释了, 速度上车
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1555 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 17:01 · PVG 01:01 · LAX 09:01 · JFK 12:01
Developed with CodeLauncher
♥ Do have faith in what you're doing.