美国农业部报告数据采集流程分析 _报告数据分析

美国农业部报告数据采集流程分析

https://www.cofeed.com 2017-08-10 天下粮仓

据期货日报8月10日报道，美国农业部（USDA）每个月都会发布当期的作物供需预估，该数据直接关系到农民、企业以及政府的相关决定，进而影响到商品市场的基本面，报告公布的当天往往会造成市场的巨大波动。可以说USDA的供需预估是全球农产品交易的基准，对于从事农产品研究和交易的人来说，了解USDA的预估数据必不可少，但在阅读和使用USDA数据时，许多市场参与者对数据的估算过程未必有足够的了解，本文系统介绍了USDA报告的数据来源以及原始数据的整理和修正情况。

虽然农业在美国经济中的占比不高，但USDA却是美国各政府机构中经费预算最多的部门之一。USDA内部设立几个专门机构来准备数据，国家农业统计局（NASS）就是其中之一，它通过收集农场运营数据，并结合实地探测，最终预测美国相关作物产量。

产量预估

每年1月NASS会先发布冬小麦和黑麦的播种报告，到了3月发布当年农民的期望种植品种，6月公布实际种植面积。从5月开始，NASS将每月公布冬小麦的单产和总产量预估，然后从7月开始公布春小麦和其他小麦的单产和总产量预估，8月公布春播的其他作物的数据，最后在收获季结束时估计出总的实际产量。同时，NASS还对存储在农场内和农场外的粮食和大豆进行季度调查。

世界农业展望委员会（WAOB）负责协调不同的机构一起准备主要作物的月度供需预测，采用供需平衡表的方式来考虑供应和利用率。供需平衡表的主要内容包括期初库存、产量、国内消费、进出口和期末留存库存。尽管美国产量和库存的预测是由NASS单独准备的，但美国国内外的供需预测是由USDA的几个不同机构一起准备的。

NASS作物生产报告和世界农业供需估算报告（WASDE）在每个月的9日至12日之间某日的东部时间上午8时30分公布，并在一个足够保密的环境下准备。两个报告数据同时公布有助于USDA的分析师进行供需预测。这些预测是一个整合数据，更多的细节会体现在USDA的其他机构，尤其是国外农业服务部（FAS）和经济研究服务部（ERS）的数据中，这些机构发布的所有国家层面的数据都必须和NASS以及WAOB的供需数据相一致。

USDA旨在为农业提供准确、客观、可靠和及时的预测，为了防止市场敏感信息泄露，有些安全措施也是必要的，其下属机构也在不断地改进研究方法，以提高预测水平。

市场对于作物产量的关注点主要集中在两个方面，种植面积和预期单产。每年6月的前两周NASS会对玉米和大豆进行调研，以获得种植面积的初始估计。而关于预期单产，从8月到11月，每个月都会通过两种不同的调研进行统计预测。由于这些单产数据的采集往往集中在上月末和本月初两三天，所以反映的其实都是月初的情况。

预测作物单产时，一方面要关注调研对应的参考时间点，另一方面要假设未来作物生长处在一个“正常的年景”下。所谓“正常的年景”就是指气温和降水都处在历史均值范围内。同时，作物经历的第一场强霜也要发生在历史均值的时间点。NASS通过判断参考日期到霜降的时间长度，然后在历史数据中得到该时间点的作物成长情况，如果作物在第一场霜降过后还有三分之一没有成熟，那么霜降就会对作物生长产生破坏。在做预测时，USDA是不会考虑远期天气预报的。

预期参考点通常指的是每个月的第一天，同时也是数据时间区间的中点。而根据过往的调研预估数据和最终单产数据的差值来看，不论是通过对种植者调研取数据均值，还是通过模型预测单产，最终都会存在一定的误差。因此在做预测前必须要对数据进行修正，通过判断这两种方式得出的单产数据的误差范围，然后测算这里面重叠的部分。

如果在调研后和报告出来前这段时间出现了重大的改变，例如极寒、极热、大雨等，首先要确保的是，根据调研数据提供最准确的预测。官方这个时候有可能会根据均值进行一些调整，但是仍然会以调研期间的数据为基准来反映。NASS的政策是说会给出每月月初的预测值，所以其单产预估仍然是基于调研数据的。这就是为什么个别时候USDA的预估值与当下现实出现较大偏差，因为其预估的基础是前期的调研结果，调研之后到报告发布期间发生的改变往往并没有反应在档期的报告当中。

需要注意的是，在预估单产时，NASS是不会预测未来天气状况的，长期的天气预报不会出现在任何模型当中。当天气偏离正常值时，预测也会做相应的调整。

种植面积与收获面积统计

NASS每年6月会组织一场规模庞大的调研。6月前两周，2400个访问员会对125000个农民进行调研，渠道包括电话和面谈，以获得关于种植面积、粮食库存以及牲畜库存的相关信息。农民不仅要给出作物已种植面积和未来预期增加面积的数据，还要注明其中的谷物面积为多少。不管最初这些土地是打算种什么的，这些数据目的就是为了预测现在到底种了什么，比如多少玉米、大豆还有其他作物。这些数据用来对粮食和大豆（包括种子）种植面积进行预测，同时也用来预估粮食库存以及牲畜库存。

调查设计采用了两种不同的样本框架。地区样本框架在于覆盖全美所有种植面积，清单样本框架，并不在于覆盖所有的数据，而仅仅是提供一个更加行之有效的收集方法，来获取农民和农场主的数据信息。

从地区样本框架中抽取样本要经历多个阶段，首先通过卫星图像、地图产品和计算机软件等渠道对土地的耕作频率进行划分，分为常用耕地、边缘耕地和市区。这些土地会被进一步细分到1平方英里的耕地或者0.1平方英里的城市地区。通过这种分类方式帮助抽样时更加容易抽取到常用耕地，抽中常用耕地的概率在1/125，其他低频使用的耕地抽中概率在1/250到1/500间。

每年6月全美会抽样选取10000个区域，并通过地图和卫星照片定位这些样本区域，之后调查员就会针对当地的相关人员进行调研，调查包括粮食种植量、牲畜库存、以及谷物库存。同样的调查在12月还有一次，对象为冬小麦。

在设立清单样本框架时，调查员会根据每一个农场的特征对其进行分类，如粮食种植面积。大的农场被选中的概率显然会更高，如伊利诺伊面积在5500英亩以上耕地或者50万蒲式耳库存的大农场，还有爱荷华那些有5000英亩耕地的农场，都是肯定会被选上的。小的农场被选中的概率大概在1/25到1/50之间。

6月同一时期，会在清单上选取75000个农场进行调研，单子上的农民将会提供每种作物总的种植面积，以及他们的所有粮食库存。这些数据一般都是通过电话访问获得的。

NASS和爱荷华州立大学采用多框架的统计方法对来自两种框架样本下的数据进行整合，以确保所有的数据都能统计到并且不重复计算。6月的农业调查数据将作为7月、9月、12月以及来年3月数据的子样本使用，这些数据就是大家所关注的种植面积和作物季度库存。

一般来说，6月的调查种植面积在整个作物种植期间都不会改变。可是，总有些时候种植季开始的比较晚，又或者有些土地还没有种上计划中的作物。当这些情况发生时，在8月第一次产量预测时，也会进行相应的调整。初步预测的种植面积也可能根据8月单产调研进行调整。当大量的作物尚未种植时，农民需在调查期间回答他们准备种什么。如2015年大豆种植期间，密苏里地区发生了比较严重的洪水，在8月的作物供需报告当中下调了种植面积。

单产预估

单产往往是作物生长阶段市场最为关注的因子，由于6月面积确定以后，单产对行情起到了决定性作用，每个月USDA发布前，市场个私人机构和交易员都会对单产做出预估。

对于USDA来说，其单产预估仍然是采用非常严格的系统调查做出的。部分回答了6月农业调查的农民会被挑选出来，并提供其月度作物单产预测，这其实是一个筛选过程，往往在月度调研中被联系的只有那些种植了有调研价值作物的农民。这些人将会作为补充样本放置在从清单框架样本里随机选出的人中，来预测某些州的单产。

这些被抽中的农民需要回答他们预期收获时的单产，以及最终实际收获的单产。所有的单产数据将会根据农民的种植面积来设置权重并进行加权计算。

实际单产调研每月都要在玉米、大豆、棉花和小麦产量最高的州里进行一次，而这些调研通过对土地进行随机采样，并根据样本点数据来计算、测量和加权以获得相关信息，进而用来预测和估算作物单产。

玉米、大豆、棉花和春小麦的样本来自于6月农业调研的地区框架样本，而冬麦的土地样本则来自于秋季地区框架调研。对任意一块土地调研时，调查员会随机选两个区域进行数据采集，区域的大小为两到三行预先定好的长度。

际单产可以被看作是毛单产减去收割损失。为了预测果实数量和果实单个重量，有专门基于历史数据建立的预测模型，而模型的输入值就是在样本区域所采集的数据和计算值。对于毛单产的预测就是拿果实数量乘以果实重量最后除以区域面积。

在作物生长过程中，植物特征作为预测的一个变量也在不断变化。在最初阶段，植物数量可能是用来预测成熟果实数量的唯一可用数据，在作物不断成熟过程中，实际的果实数量逐步明晰，而对于未成熟果实的称重和测量会用来预测果实的最终重量。

在作物成熟之前，每个月调查员都会重新探访这些样本区域。作物成熟后，这些区域作物的最终数量和重量便可得到。当整片土地都收割完成后，调查员会再次来到样本区域以及其他两个区域，以获得区域遗留的谷物重量来计算收割损失。当收割最终完成后，调查员会再次联络经营样本土地的农民，得到样本田最终的种植面积以及单产。

实际单产调研期间各个月份使用的豆荚数量基本上是稳定的，因为在开花季结束后，基本就可以得到准确的数量了。调研过程中会记录豆荚的数量，而豆荚的预测一般在9月的调研后便稳定下来了。作物成熟前豆荚的平均重量计算通常都基于历史数据，不过在正常年份，大豆一般在10月调研时已经成熟了，所以这时用的就是今年的豆荚重量了。

数据修正

对于农作物每月预测的准确性取决于预测时作物的成熟度以及未来的天气状况。当成熟偏晚，那么对于豆荚数量的预测就会基于其种植量以及豆荚位置，而不是真实的豆荚重量。也正因预估值不是实际数据，预测值会出现较多变数。在作物成熟前豆荚的重量都是无法确定的，因此预测的首要误差就来自于最终值和历史平均值的潜在区别。

在预测的过程中，NASS会在必要的情况下修正种植面积的预估值。产量预测的目标一直都是追求精准，预测主要基于的是最终收割面积以及每英亩单产，如果在种植过程中出现了天气问题或者病灾而致使种植区域被毁，那等于说单产为0，这造成的结果是该区域会被划分为已种植弃用地，种植面积相应减少。由于这样的原因存在，即使预估单产量不变也会导致最终产量下降。相反，当有些已经收割的土地被划为弃用时，则会造成单产的提高。当样本土地被从生产面积中淘汰或者生产者不再考虑这块用地时，单产预估调研中的种植面积数据也会相应发生改变。

消费数据，包括进出口、大豆压榨量等这些信息全年都是可得的，并被用在平衡表计算中。平衡表使用上年结转的库存加上今年预期产量构成总供应量，而从年初预测的总供应量中减去今年的这些消费量，得出的结果必须和年末的库存相一致，如果出现较大的不同或偏差，那么上年的年种植面积、单产、产量调研和库存数据都要重新检查，看看哪些误差可以调整，以使平衡表中的这些偏差得以最小化。(期货日报)

本文关键词：报告数据分析

字体:大中小

关闭窗口

打印本页

报告数据分析相关

资讯

报告数据分析热点