百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

[翻译]phoenix的配置项(phoenix framework)

liuian 2025-03-29 19:29 10 浏览

自己在工作中使用到了phoenix, 过程中也使用到了一些phoenix的基本配置项,发现配置的还挺多的,就把官网上的一些翻译了过来,权当记录吧

原文地址:
http://phoenix.apache.org/tuning.html

属性名称属性描述默认值
phoenix.query.timeoutMs查询超时时间,默认为10分钟,单位:毫秒600000
phoenix.query.keepAliveMs当客户端的线程超过线程池的核心线程数量时,空闲线程等等待任务的默认时间。超过这个时间,空闲线程就会关闭,默认是60s60000
phoenix.query.threadPoolSize客户端线程池的线程数量,当集群扩大时,这个数量最好也增大128
phoenix.query.queueSize线程池的队列最在深度,超过这个深度的任务就会被拒绝。当值为0的时候,就会使用 SynchronousQueue5000
phoenix.stats.guidepost.width服务器端参数,这个参数指定集群传输的字节指标,值较小时,会增加并行计算,但也增加客户端合并块的数量。(初步理解,当客户端数据数据到100MB时,就会发送到服务端。数值小的时候,可以多线程发送)100MB
phoenix.stats.guidepost.per.region服务器端参数, 指定每个region的指标。如果这个值大于0,那么guidepost.width就会是 MAX_FILE_SIZE of table / phoenix.stats.guidepost.per.region. ,否则就会使用phoenix.stats.guidepost.width,没有默认值None
phoenix.stats.updateFrequency服务器端参数, 指定 statistics table的统计信息的刷新频率,刷新后会通知客户端。默认是15分钟900000
phoenix.stats.useCurrentTime服务器高级参数,为真:当hbase表发生合并或者compactions时,统计表会用服务器的当前时间作为行的时间戳。为false:就会使用表的被统计的最大的时间戳。除非你自己自己插入数据时,自己控制时间戳,最好使用默认。true
phoenix.query.spoolThresholdBytes并行查询结果的阈值,超过这个阈值,就会溢出到硬盘。默认为20MB,单位:字节20971520
phoenix.query.maxSpoolToDiskBytes并行查询结果最大的字节数,超过这个阈值,查询就会失败。默认是1GB1024000000
phoenix.query.maxGlobalMemoryPercentage所有线程使用的最大堆内存( Runtime.getRuntime().maxMemory())的百分比.只会对小的内存跟踪。主要是统计group by aggregation过程中产生的map内存的使用。当到达这个值的时候,会尝试获取更多的内存。主要就是节省内存的使用。默认是15%15
phoenix.query.maxGlobalMemorySize所有线程使用的最大内存的字节数。如果设置这个参数,就会使用phoenix.query.maxGlobalMemorySize和phoenix.query.maxGlobalMemoryPercentage的最小值
phoenix.query.maxGlobalMemoryWaitMs当内存不够时,client就会被阻塞。这个参数是最大的等待时间。超过这个时间。就会抛出 InsufficientMemoryException 默认是10s10000
phoenix.query.maxTenantMemoryPercentage所有消费者能够占用phoenix.query.maxGlobalMemoryPercentage的最大的占用比例,超过这个值,就会抛出 InsufficientMemoryException 默认是100%100
phoenix.query.dateFormat默认时间格式。TO_CHAR(), TO_DATE(), resultSet.getString()yyyy-MM-dd HH:mm:ss
phoenix.query.dateFormatTimeZone时区的ID,指定默认的时区。对date, time,timestamp,to_date()有效.可以简写为“PST”,也可以写为“ America/Los_Angeles”,或自定义偏移量如“ GMT-9:00”,“LOCAL”会使用当前的时区GMT
phoenix.query.numberFormat数字和字符串互相转换的数字格式。 TO_CHAR(), TO_NUMBER(), resultSet.getString()#,##0.##
phoenix.mutate.maxSizecommit或rollback前,一次批量处理的最大的行数500000
phoenix.mutate.batchSize自动提交时。一次批处理的数量,这个参数会被 connect 参数UpsertBatchSize 覆盖。注意,当这 UPSERT SELECT or DELETE 在服务器使用 coprocessor执行时。connect参数对bathcsize无效1000
phoenix.coprocessor.maxServerCacheTimeToLiveMs服务器缓存的最大存活时间(毫秒)。从最后一次访问到现在的过期时间。当服务器端发生 IOException(“Could not find hash cache for joinId”) 时,可以考虑调整这个参数。当服务器端 有像“Earlier hash cache(s) might have expired on servers”这样的警告时,就是一个调大这个参数的信号。 30000
phoenix.query.useIndexes查询时是否作用索引True
phoenix.index.mutableBatchSizeThresholdNumber of mutations in a batch beyond which index metadata will be sent as a separate RPC to each region server as opposed to included inline with each mutation. Defaults to 5.5
phoenix.schema.dropMetaData删除一张phoenix表时,是否删除对应的Hbase表。默认是TrueTrue
phoenix.groupby.spillable在regionServer上 是否一个大量不重复的数据是否允许溢出到磁盘上(Group By 也不例外)。为False时,抛出 InsufficientMemoryExceptionTrue
phoenix.groupby.spillFiles溢出文件的数量( Number of memory mapped spill files to be used when spilling GROUP BY distinct values to disk. Default is 2)2
phoenix.groupby.maxCacheSizegroupBy 溢出 时最大的缓存字节数。默认是100Mb102400000
phoenix.groupby.estimatedDistinctValues当一个group by执行时预估的不同值的数量,( Used to perform initial sizing with growth of 1.5x each time reallocation is required)1000
phoenix.distinct.value.compress.threshold使用聚合函数时。跟踪的不同值数量的阈值。超过这个数量后就会使用 Snappy压缩,默认是1MB1024000
phoenix.index.maxDataFileSizePerc共享索引表MAX_FILESIZE对于数据表MAX_FIELSIZE的百分比。这个值应该根据索引行和数据行的预计平均大小来估算,默认是50%50%
phoenix.coprocessor.maxMetaDataCacheTimeToLiveMs服务器端元数据缓存的过期时间。默认是30分钟。单位:毫秒180000
phoenix.coprocessor.maxMetaDataCacheSize服务器端最大的元数据字节数。如果超过这个值。就会根据最后访问时间来删除一些数据。默认是20MB20480000
phoenix.client.maxMetaDataCacheSize客户端最大的元数据字节数。如果超过这个值。就会根据最后访问时间来删除一些数据。默认是10MB10240000
phoenix.sequence.cacheSize在下一个序列值被分配时,从服务器和缓存中保留的序列值的数目。在序列自己定义时这个参数无效(猜测:这个是主键的生成策略)。默认为100100
phoenix.clock.skew.intervalDelay interval(in milliseconds) when opening SYSTEM.CATALOG to compensate possible time clock skew when SYSTEM.CATALOG moves among region servers.2000
phoenix.index.failure.handling.rebuild当数据发生变化时,索引是否自动重建True
phoenix.index.failure.handling.rebuild.interval索引重建后。检查下一次重建的时间间隔(毫秒)10000
phoenix.index.failure.handling.rebuild.overlap.time索引失效后到索引重建的时间间隔(毫秒)。这个参数是为了防止。存在time clock skew.的更新丢失。300000
phoenix.query.rowKeyOrderSaltedTable对于salted表。非聚合函数总是返回以rowkey排序的数据。为true时,在表创建时,分割点可以先不指定,但就会在每个salt bucket使用默认的分割。默认是TrueTrue
phoenix.connection.autoCommit是否自动提交。对于所有连接有效False
phoenix.spool.directory数据量到20MB(phoenix.query.spoolThresholdBytes )溢出到本地目录/tmp
phoenix.query.scanResultChunkSize一次查询返回的批量数量2999

相关推荐

GANs为何引爆机器学习?这篇基于TensorFlow的实例教程为你解惑!

「机器人圈导览」:生成对抗网络无疑是机器学习领域近三年来最火爆的研究领域,相关论文层出不求,各种领域的应用层出不穷。那么,GAN到底如何实践?本文编译自Medium,该文作者以一朵玫瑰花为例,详细阐...

高丽大学等机构联合发布StarGAN:可自定义表情和面部特征

原文来源:arXiv、GitHub作者:YunjeyChoi、MinjeChoi、MunyoungKim、Jung-WooHa、SungKim、JaegulChoo「雷克世界」编译:嗯~...

TensorFlow和PyTorch相继发布最新版,有何变化

原文来源:GitHub「机器人圈」编译:嗯~阿童木呀、多啦A亮Tensorflow主要特征和改进在Tensorflow库中添加封装评估量。所添加的评估量列表如下:1.深度神经网络分类器(DNNCl...

「2022 年」崔庆才 Python3 爬虫教程 - 深度学习识别滑动验证码缺口

上一节我们使用OpenCV识别了图形验证码躯壳欧。这时候就有朋友可能会说了,现在深度学习不是对图像识别很准吗?那深度学习可以用在识别滑动验证码缺口位置吗?当然也是可以的,本节我们就来了解下使用深度...

20K star!搞定 LLM 微调的开源利器

LLM(大语言模型)微调一直都是老大难问题,不仅因为微调需要大量的计算资源,而且微调的方法也很多,要去尝试每种方法的效果,需要安装大量的第三方库和依赖,甚至要接入一些框架,可能在还没开始微调就已经因为...

大模型DeepSeek本地部署后如何进行自定义调整?

1.理解模型架构a)查看深度求索官方文档或提供的源代码文件,了解模型的结构、输入输出格式以及支持的功能。模型是否为预训练权重?如果是,可以在预训练的基础上进行微调(Fine-tuning)。是否需要...

因配置不当,约5000个AI模型与数据集在公网暴露

除了可访问机器学习模型外,暴露的数据还可能包括训练数据集、超参数,甚至是用于构建模型的原始数据。前情回顾·人工智能安全动态向ChatGPT植入恶意“长期记忆”,持续窃取用户输入数据多模态大语言模型的致...

基于pytorch的深度学习人员重识别

基于pytorch的深度学习人员重识别Torchreid是一个库。基于pytorch的深度学习人员重识别。特点:支持多GPU训练支持图像的人员重识别与视频的人员重识别端到端的训练与评估简单的re...

DeepSeek本地部署:轻松训练你的AI模型

引言:为什么选择本地部署?在AI技术飞速发展的今天,越来越多的企业和个人希望将AI技术应用于实际场景中。然而,对于一些对数据隐私和计算资源有特殊需求的用户来说,云端部署可能并不是最佳选择。此时,本地部...

谷歌今天又开源了,这次是Sketch-RNN

前不久,谷歌公布了一项最新技术,可以教机器画画。今天,谷歌开源了代码。在我们研究其代码之前,首先先按要求设置Magenta环境。(https://github.com/tensorflow/magen...

Tensorflow 使用预训练模型训练的完整流程

前面已经介绍了深度学习框架Tensorflow的图像的标注和训练数据的准备工作,本文介绍一下使用预训练模型完成训练并导出训练的模型。1.选择预训练模型1.1下载预训练模型首先需要在Tensorf...

30天大模型调优学习计划(30分钟训练大模型)

30天大模型调优学习计划,结合Unsloth和Lora进行大模型微调,掌握大模型基础知识和调优方法,熟练应用。第1周:基础入门目标:了解大模型基础并熟悉Unsloth等工具的基本使用。Day1:大模...

python爬取喜马拉雅音频,json参数解析

一.抓包分析json,获取加密方式1.抓包获取音频界面f12打开抓包工具,播放一个(非vip)视频,点击“媒体”单击打开可以复制URL,发现就是我们要的音频。复制“CKwRIJEEXn-cABa0Tg...

五、JSONPath使用(Python)(json数据python)

1.安装方法pipinstalljsonpath2.jsonpath与Xpath下面表格是jsonpath语法与Xpath的完整概述和比较。Xpathjsonpath概述/$根节点.@当前节点...

Python网络爬虫的时候json=就是让你少写个json.dumps()

大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和...