爬坑记录
大多数文档都属于原创,自己的爬坑经验。
一些技术爬坑从2013年左右逐步积累的,没有在任何平法发表过,现在都转为 Markdown 线上浏览,方便自己查阅也方便读者。
领域:大数据、Hadoop、Spark、批流一体化、数据融合开发、数据湖、湖仓一体、目标检测、视频集成识别、人工智能算法、大模型
<p>BPMN 2.0存储为XML,并包含可视化的部分:使用标准方式定义了每个步骤类型(人工任务,自动服务调用,等等)如何呈现,以及如何互相连接。这样BPMN 2.0标准使技术人员与业务人员能用双方都能理解的方式交流业务流程。</p>
<p>使用的流程定义示例为:</p>
<p><img src="./images/flowable-graph-example.png" alt="flowable-graph-example.png" data-fancybox="gallery"></p>
<p>流程定义... 阅读全文
<h2 id="安装-certbot" tabindex="-1">安装 certbot <a class="header-anchor" href="#安装-certbot" aria-label="Permalink to "安装 certbot"">​</a></h2>
<p><strong>Ubuntu</strong></p>
<div class="language-shell line-numbers-mode"><button title="... 阅读全文
<h2 id="绑定变量" tabindex="-1">绑定变量 <a class="header-anchor" href="#绑定变量" aria-label="Permalink to "绑定变量"">​</a></h2>
<p>父页面将 graph_data 传递给子页面 data</p>
<div class="language-html line-numbers-mode"><button title="Copy Code" class="cop... 阅读全文
4. ORC、ParquetFile、TsFile、HFILE序列文件存储格式研究
<p>缘起,大约在 2014 年,经过过一次 HBase 崩溃(那个时候公司的服务器都在公司放着,停电引起),HBase 无法启动,经过检查,是 HBase 的 HFile 文件损坏。于是,开始研究 HBase 的 HFile 文件格式, 着手抢救 HBase 中的数据。那时候,从 zookeeper 中读取 hbase 表 meta 信息,从meta 分析hbase 的 region,从而从 HDFS 上读取对应 region 的数据备份,并尝试自己读取 hfile。经过这次,对 HFile 文件格式有了... 阅读全文
<div class="tip custom-block"><p class="custom-block-title">提示</p>
<p>本文简单介绍 apache-iotdb 的安装和简单使用,重点在于操作实践,便于理解 iotdb 的数据类型,数据结构,查询方法。</p>
</div>
<p>调研背景:</p>
<p>公司大量的传感器(车辆网)数据都是存储到 ES 中,架构比较老,ES 存储数据量大,消耗内存过高,又不能上大数据系统。只能再小范围选择。老早就听过 IOTDB 未能上手,正好可学习一下。... 阅读全文
<h2 id="安装" tabindex="-1">安装 <a class="header-anchor" href="#安装" aria-label="Permalink to "安装"">​</a></h2>
<p>对于基于 Debian 的系统(如 Ubuntu):</p>
<div class="language-shell line-numbers-mode"><button title="Copy Code" class="copy"></but... 阅读全文
<blockquote>
<p>DeepSeek R1 安装指导和简单使用</p>
</blockquote>
<p>本教程安装的服务器环境如下:</p>
<ul>
<li>Debian 12.6(Linux)</li>
<li>32GB内存, 20核心 E5-2697V2, SSD硬盘(无显卡)</li>
<li>梯子</li>
</ul>
<h2 id="deepseek-r1-安装" tabindex="-1">DeepSeek-R1 安装 <a class="header-anchor" href=... 阅读全文
<blockquote>
<p>Arthas 是一款线上监控诊断产品. 可方便的支持开发人员对程序进行监控、诊断、调试、参数调优以及内存分析。</p>
</blockquote>
<h2 id="安装" tabindex="-1">安装 <a class="header-anchor" href="#安装" aria-label="Permalink to "安装"">​</a></h2>
<p>直接下载以 jar 启动</p>
<div class="la... 阅读全文
<blockquote>
<p>当 Linux 系统内存使用非常紧张时,Linux 会自动杀死一些进程以释放内存。这些被杀死的进程被称为 OOM 进程(Out of Memory Process)。OOM Killer 是 Linux 内核的一部分,它会在系统内存不足时自动运行,以释放内存。</p>
</blockquote>
<h2 id="查看被killed的进程" tabindex="-1">查看被killed的进程 <a class="header-anchor" href="#查看被killed的... 阅读全文
10. MinIO 安装, 采用 rclone 挂载为本地磁盘
<blockquote>
<p>本篇再 Windows 上 安装 minio 开始,到 rclone 挂载一个盘符,完成一个简单的分布式文件系统。</p>
</blockquote>
<h2 id="minio" tabindex="-1">MinIO <a class="header-anchor" href="#minio" aria-label="Permalink to "MinIO"">​</a></h2>
<h3 id="安装-minio" ta... 阅读全文
11. juicefs 在 Windows Server 系统上的安装, 并通过 WinSW 将 juicefs 注册为系统服务
<blockquote>
<p>本篇为 juicefs 在 Windows Server 系统上的安装,并使用。再通过 WinSW 将 juicefs 注册为 Windows 系统服务。</p>
</blockquote>
<h2 id="juicefs-下载" tabindex="-1">juicefs 下载 <a class="header-anchor" href="#juicefs-下载" aria-label="Permalink to "juicefs 下载"">&ZeroW... 阅读全文
<blockquote>
<p>Presto 环境搭建</p>
</blockquote>
<h2 id="安装前准备" tabindex="-1">安装前准备 <a class="header-anchor" href="#安装前准备" aria-label="Permalink to "安装前准备"">​</a></h2>
<p>环境:</p>
<p>Linux or Mac OS X</p>
<p>Java 8, 64-bit</p>
<p>Pytho... 阅读全文
<blockquote>
<p>本篇主要介绍电视盒子刷机并 root 后,刷入当贝桌面镜像。后又刷入 armbian 系统,并从 U盘启动 armbian,最后刷入 emmc。</p>
</blockquote>
<p>之前有过了解树莓派,又贵配置又低。在了解电视盒子后,无论是 CPU 主频、核数、内存都香太多。最重要的是便宜、便宜、便宜。</p>
<p>各类Amlogic S905 的盒子,支持 ARM 64位架构【arrch64】,刷入 armbian 系统,可以当作一台常开的小服务器使用。并且各类 a... 阅读全文
14. DataFlow 在 Spark、Flink 上提交任务,以及和海豚调度平台集成
<p>可以理解 DataFlow 本质上是一个 Spark、Flink 解释执行 Flow XML 的执行器。需要在 Spark、Flink 架构之上运行,支持 LOCAL、Standardlone、YARN、K8S 多种运行模式。在客户端主机需要安装大数据 Spark 或 Flink 客户端。任务依赖 jsoup.jar(解析 XML),udf.jar(非必须),包含诸多自定义实现的 udf。Udf 用于实际业务中必要的自定义 UDF 开发等(在默认 UDF 不够使用时)。</p>
<h2 id="spr... 阅读全文
<div class="tip custom-block"><p class="custom-block-title">提示</p>
<p>DataFlow 是基于 SparkSQL/FlinkSQL 开发的一种基于 XML 配置化的 SQL 数据流转处理模型。该模型简化了 SparkSQL 、Flink Stream 的开发,并且降低开发了难度,适合了解数据业务但无法驾驭大数据以及 Spark、Flink 技术的开发者。</p>
</div>
<p>DataFlow 开发模型适合作为:</p>
<ol>
... 阅读全文