Kafka Streams - Envoyer sur différents sujets en fonction des données de Streams

Question

J'ai une application kafka streams en attente de publication des enregistrements sur le sujet user_activity. Il recevra des données json et en fonction de la valeur de contre une clé, je veux pousser ce flux dans différents sujets.

Voici mon code d'application streams:

KStream<String, String> source_user_activity = builder.stream("user_activity"); source_user_activity.flatMapValues(new ValueMapper<String, Iterable<String>>() { @Override public Iterable<String> apply(String value) { System.out.println("value: " + value); ArrayList<String> keywords = new ArrayList<String>(); try { JSONObject send = new JSONObject(); JSONObject received = new JSONObject(value); send.put("current_date", getCurrentDate().toString()); send.put("activity_time", received.get("CreationTime")); send.put("user_id", received.get("UserId")); send.put("operation_type", received.get("Operation")); send.put("app_name", received.get("Workload")); keywords.add(send.toString()); // apply regex to value and for each match add it to keywords } catch (Exception e) { // TODO: handle exception System.err.println("Unable to convert to json"); e.printStackTrace(); } return keywords; } }).to("user_activity_by_date");

Dans ce code, je veux vérifier le type d'opération, puis en fonction de cela, je veux pousser les flux dans la rubrique appropriée.

Comment puis-je atteindre cet objectif?

MODIFIER:

J'ai mis à jour mon code en ceci:

final StreamsBuilder builder = new StreamsBuilder(); KStream<String, String> source_o365_user_activity = builder.stream("o365_user_activity"); KStream<String, String>[] branches = source_o365_user_activity.branch( (key, value) -> (value.contains("Operation\":\"SharingSet") && value.contains("ItemType\":\"File")), (key, value) -> (value.contains("Operation\":\"AddedToSecureLink") && value.contains("ItemType\":\"File")), (key, value) -> true ); branches[0].to("o365_sharing_set_by_date"); branches[1].to("o365_added_to_secure_link_by_date"); branches[2].to("o365_user_activity_by_date");

codejitsu · Accepted Answer

Vous pouvez utiliser la méthode branch afin de diviser votre flux. Cette méthode prend des prédicats pour diviser le flux source en plusieurs flux.

Le code ci-dessous est tiré de kafka-streams-examples :

KStream<String, OrderValue>[] forks = ordersWithTotals.branch( (id, orderValue) -> orderValue.getValue() >= FRAUD_LIMIT, (id, orderValue) -> orderValue.getValue() < FRAUD_LIMIT); forks[0].mapValues( orderValue -> new OrderValidation(orderValue.getOrder().getId(), FRAUD_CHECK, FAIL)) .to(ORDER_VALIDATIONS.name(), Produced .with(ORDER_VALIDATIONS.keySerde(), ORDER_VALIDATIONS.valueSerde())); forks[1].mapValues( orderValue -> new OrderValidation(orderValue.getOrder().getId(), FRAUD_CHECK, PASS)) .to(ORDER_VALIDATIONS.name(), Produced .with(ORDER_VALIDATIONS.keySerde(), ORDER_VALIDATIONS.valueSerde()));

Ivan Ponomarev · Answer

L'original KStream.branch La méthode n'est pas pratique à cause des tableaux et des génériques mixtes, et parce qu'elle oblige à utiliser des 'nombres magiques' pour extraire la bonne branche du résultat (voir par exemple KAFKA-5488 problème). À partir de spring-kafka 2.2.4, KafkaStreamBrancher class va être disponible. Avec elle, une ramification plus pratique sera possible:

new KafkaStreamsBrancher<String, String>() .branch((key, value) -> value.contains("A"), ks->ks.to("A")) .branch((key, value) -> value.contains("B"), ks->ks.to("B")) .defaultBranch(ks->ks.to("C")) .onTopOf(builder.stream("source")) //onTopOf returns the provided stream so we can continue with method chaining //and do something more with the original stream

Il y a aussi KIP-418 , donc il y a aussi une chance que cette classe apparaisse dans Kafka lui-même.

Rafael · Answer

Une autre possibilité consiste à router l'événement dynamiquement à l'aide d'un TopicNameExtractor :

https://www.confluent.io/blog/putting-events-in-their-place-with-dynamic-routing

vous devez cependant avoir créé les sujets à l'avance,

val outputTopic: TopicNameExtractor[String, String] = (_, value: String, _) => defineOutputTopic(value) builder .stream[String, String](inputTopic) .to(outputTopic)

et defineOutputTopic peut renvoyer l'un d'un ensemble défini de rubriques en fonction de la valeur (ou du contexte de clé ou d'enregistrement d'ailleurs). PD: désolé pour le code scala, dans le lien il y a un exemple Java.